我如何检测一系列文本的代码页,一个字符2个字节,它是波兰语
How can I detect the codepage of a serial of text,2 byte for a character,It's polish
如何检测一系列文本的代码页,一个字符为2字节,普通英文字符为polish.And,只需在ansi代码中添加0x00,对于特殊波兰字符,两个字节具有特殊的意义。没有文件头,只有这样的字节流。
此处示例
字符串:Połączenia
字节:50 00/6f 00/42 01/05 01/63 00/7a 00/65 00/69 00/61 00
我认为不是unicode,因为unicode中的0x4201是汉字
不是波兰语。
所以有人可以帮助我吗?非常感谢!
它是 UTF-16 Big Endian。
$ echo -n "Połączenia" | iconv -f UTF8 -t UTF16BE | hexdump
0000000 5000 6f00 4201 0501 6300 7a00 6500 6e00
0000010 6900 6100
如何检测一系列文本的代码页,一个字符为2字节,普通英文字符为polish.And,只需在ansi代码中添加0x00,对于特殊波兰字符,两个字节具有特殊的意义。没有文件头,只有这样的字节流。
此处示例
字符串:Połączenia
字节:50 00/6f 00/42 01/05 01/63 00/7a 00/65 00/69 00/61 00
我认为不是unicode,因为unicode中的0x4201是汉字 不是波兰语。
所以有人可以帮助我吗?非常感谢!
它是 UTF-16 Big Endian。
$ echo -n "Połączenia" | iconv -f UTF8 -t UTF16BE | hexdump
0000000 5000 6f00 4201 0501 6300 7a00 6500 6e00
0000010 6900 6100