真正的双字节编码

True double byte encoding

是否存在一些真正的双字节编码 (DBCS)?

4字节编码的相同问题,是否存在(不是UCS-4,UTF-32)?

谢谢。

否,没有满足您要求列表的双字节字符集。这是因为当时的设计者使用 7 位 ASCII 作为起点(有利于兼容性),然后在 256 字节值的上半部分放置额外的字符或多字节起始码。

与四字节字符集类似,在 Unicode 甚至试图提供超过 65536 个字符之前,没有严肃的标准。

举个例子,中文Big5使用ASCII定义字节0x00到0x7F,使用0x81到0xFF作为扩展字符的起始字节,第二个使用{0x40到0x7E,0xA1到0xFE}字节。这最多可以编码 20067 个不同的字符。

当然有遗留字符集每个字符只使用两个字节,但这些字符集通常根本不编码 ASCII 字符,旨在补充 单字节字符设置而不是替换它。我所知道的所有这些都支持中文、日文、and/or 韩文表意字符。

周围有很多使用此类编码的遗留文档,如果发现在某些地方它们仍在新文档中使用,我不会感到惊讶。

如果您试图确定您的软件是否可以忽略除 UTF 之外的多字节字符编码的存在,那么恐怕您不会得到一个简单的答案。当然你的软件可以这样做,就像它可以忽略 ISO-8859-15 以外的单字节编码一样,但只有 可以确定您的程序是否能充分发挥其作用。