我如何检测一系列文本的代码页,一个字符2个字节,它是波兰语

How can I detect the codepage of a serial of text,2 byte for a character,It's polish

如何检测一系列文本的代码页,一个字符为2字节,普通英文字符为polish.And,只需在ansi代码中添加0x00,对于特殊波兰字符,两个字节具有特殊的意义。没有文件头,只有这样的字节流。

此处示例

字符串:Połączenia

字节:50 00/6f 00/42 01/05 01/63 00/7a 00/65 00/69 00/61 00

我认为不是unicode,因为unicode中的0x4201是汉字 不是波兰语。

所以有人可以帮助我吗?非常感谢!

它是 UTF-16 Big Endian。

$ echo -n "Połączenia" | iconv -f UTF8 -t UTF16BE | hexdump
0000000 5000 6f00 4201 0501 6300 7a00 6500 6e00
0000010 6900 6100