gbk(cp18030/cp936)转unicode(cp1200)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
| String str = "没有任何意义的一句说话"; for (int i = 0; i < str.length(); i++) { String charactor = str.substring(i, i + 1); byte[] b = charactor.getBytes("UTF-16BE"); // 如果是UTF-16LE,则高低位翻转 String s1 = Integer.toHexString(b[0]).replace("ffffff", ""); String s2 = Integer.toHexString(b[1]).replace("ffffff", ""); if (s1.length() < 2) s1 = "0" + s1; if (s2.length() < 2) s2 = "0" + s2; String s = s1 + s2; out.println(String.format("十六进制的表示 &#x%s;", s)); out.println(String.format("十进制的表示 &#%s;", Integer.parseInt(s, 16))); //Integer.valueOf(s, 16) or Integer.decode("0x" + s) out.println(); }<span class="Apple-style-span" style="font-family:''sans serif', tahoma, verdana, helvetica';font-size:x-large;"><span class="Apple-style-span" style="font-size:19px;line-height:19px;white-space:normal;"> </span></span>
|
numeric character reference(NCR)
以Σ(16进制);或Σ(十进制);都可以在html显示unicode字符,例如:Σ
Python的方法会简单一些:
unicode(‘没有任何意义的一句说话‘,’gbk’)可以输出它的unicode编码
显示十进制结果:int(‘3A3’, 16)
还原big5文字
char.txt文件保存的汉字是繁体big5编码的【書院】,但显示为【皘】
编写如下代码还原
1 2 3 4 5 6
| InputStreamReader reader = new InputStreamReader(new FileInputStream("char.txt")); char[] chars = new char[892600]; int len = reader.read(chars); String sql = new String(chars, 0, len); out.println(new String(sql.getBytes(), "big5_hkscs")); reader.close();
|
参考:
Numeric_character_reference