是否有有效但在 UTF-8 中不同的 ISO 8859-1 文本文件示例?

Are there examples of ISO 8859-1 text files which are valid, but different in UTF-8?

我知道 UTF-8 比 Latin-1 支持更多的字符(即使有扩展)。但是是否有文件在两者中都有效但字符不同的示例?所以本质上内容会发生变化,具体取决于您认为文件的编码方式?

我也知道 Latin-1 的一大块 1:1 映射到 UTF-8 中的同一部分。问题是:如果解释不同(不是无效,而是不同),哪些代码点可以更改值?

Unicode 是一种略微简化的字符集,而 UTF-8 是 Unicode 二进制表示的多种编码之一。

ISO-8859-1 既是字符集又是编码。

在字符集层面,ISO-8859-1是Unicode的一个子集,即每个ISO-8859-1字符也都存在于Unicode中,ISO-8859-1编码甚至等于Unicode编码点.

在编码级别,ISO-8859-1 和 UTF-8 对 ISO-8859-1 最多 127 个字符使用相同的二进制表示。但是对于 128 到 255 之间的字符,它们与 UTF-8 不同需要 2 个字节来表示它们。

示例:

Word ISO-8859-1 UTF-8
Zürich 5a fc 72 69 63 68 5a c3 bc 72 69 63 68

Latin-1 是一种单字节编码(即 1 个字符 = 1 个字节),它使用所有可能的字节值。所以任何字节都映射到 Latin-1 中的 something。所以从字面上看,任何文件在 Latin-1 中都是“有效的”。因此,您可以将任何文件解释为 Latin-1,您将得到……结果……

所以是的,用 Latin-1 解释任何有效的 UTF-8 文件。它在 UTF-8 Latin-1 中均有效。两种编码的前 128 个字符相同,并且都基于 ASCII;但如果您的 UTF-8 文件使用任何非 ASCII 字符,这些字符将被解释为乱码(但有效)Latin-1。

bytes encoding text
e6bc a2e5 ad97 UTF-8 漢字
e6bc a2e5 ad97 Latin-1 æ¼¢å­ valid but nonsensical