iso-8859-1 的编码和字符集

Encoding and character set for iso-8859-1

我已阅读 Joel 关于编码的文章。据我了解,在 unicode 的情况下:

  1. unicode是字符集——整数值与字符的映射
  2. utf-8 是一种用于 unicode 整数以二进制视图呈现它们的编码

iso-8859-1呢?是编码还是字符集还是两者兼而有之?

ISO 8859-1 (Latin-1) 是单字节编码。它代表前 256 个 Unicode 字符。所以,只要是Unicode字符集的子集,我想就可以把它当作编码和字符集。

What about iso-8859-1? Is it encoding or character set or both?

从历史上看,它被描述为一个编码字符集:它定义了一组字符,以及这些字符到字节值的映射——我们今天称之为编码,但在那些文件中没有明确描述条款。

创建 Unicode 时,它​​旨在包含(几乎)广泛使用的字符集中的所有字符,因此它将 ISO-8859-1 编码字符集定义的字节流重铸为更广泛的通用字符集。

因此,如果您在现代 Unicode 环境中工作,您会认为 ISO-8859-1 是一种编码。但也不能说是字符集就错了。

(还有其他绝对不是字符集的编码:例如 UTF 和多字节编码,如 Shift-JIS,它本身在 Unicode 的扩展和扩展之前被定义为 JIS X 0208 字符集的编码-拥抱。)