Java编码转换

gbk(cp18030/cp936)转unicode(cp1200)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
String str = "没有任何意义的一句说话";
for (int i = 0; i < str.length(); i++) {
String charactor = str.substring(i, i + 1);
byte[] b = charactor.getBytes("UTF-16BE"); // 如果是UTF-16LE,则高低位翻转
String s1 = Integer.toHexString(b[0]).replace("ffffff", "");
String s2 = Integer.toHexString(b[1]).replace("ffffff", "");
if (s1.length() < 2)
s1 = "0" + s1;
if (s2.length() < 2)
s2 = "0" + s2;
String s = s1 + s2;
out.println(String.format("十六进制的表示 &#x%s;", s));
out.println(String.format("十进制的表示 &#%s;", Integer.parseInt(s, 16))); //Integer.valueOf(s, 16) or Integer.decode("0x" + s)
out.println();
}<span class="Apple-style-span" style="font-family:''sans serif', tahoma, verdana, helvetica';font-size:x-large;"><span class="Apple-style-span" style="font-size:19px;line-height:19px;white-space:normal;"> </span></span>

numeric character reference(NCR)

以&#x03A3(16进制);或&#0931(十进制);都可以在html显示unicode字符,例如:Σ
Python的方法会简单一些:
unicode(‘没有任何意义的一句说话‘,’gbk’)可以输出它的unicode编码
显示十进制结果:int(‘3A3’, 16)

还原big5文字

char.txt文件保存的汉字是繁体big5编码的【書院】,但显示为【皘】

编写如下代码还原

1
2
3
4
5
6
InputStreamReader reader = new InputStreamReader(new FileInputStream("char.txt"));
char[] chars = new char[892600];
int len = reader.read(chars);
String sql = new String(chars, 0, len);
out.println(new String(sql.getBytes(), "big5_hkscs"));
reader.close();

参考:

Numeric_character_reference