为什么 UTF-32 使用四个字节?
Why UTF-32 uses four bytes?
如果 UTF-32 是 UCS-4 限制为 17 个平面(1114111 个字符点)需要 21 位,那么第四个字节在做什么?
第四个字节就坐在那里,占据space(用0填充)。
理论上,可以设计出 21 位或 24 位的交换格式。实际上,这两者都很尴尬。很少(如果有的话)现代计算机具有 21 位或 24 位数据类型。由于 32 位字易于使用,因此使用它们来存储最大值远小于 231-1.
的数字数据类型是很常见的
如果 UTF-32 是 UCS-4 限制为 17 个平面(1114111 个字符点)需要 21 位,那么第四个字节在做什么?
第四个字节就坐在那里,占据space(用0填充)。
理论上,可以设计出 21 位或 24 位的交换格式。实际上,这两者都很尴尬。很少(如果有的话)现代计算机具有 21 位或 24 位数据类型。由于 32 位字易于使用,因此使用它们来存储最大值远小于 231-1.
的数字数据类型是很常见的