字符编码问题 - 在文本区域中保存后字符被替换为随机字符

Character Encoding Issue - Characters Being Replaced with Random Characters after Saving in Textarea

我正在与一家第三方公司合作,我要trying/hoping确定字符编码问题的原因,然后再向他们提出。

这家公司有一个自定义的拖放编辑器,用于在他们的平台上设计网站。在编辑器中,他们有一个 Raw HTML 小部件,我可以将其拖入并添加我自己的内容。问题是,当我使用检查器工具从某人的旧网站复制 HTML,并将其粘贴到他们的这个小部件中时,所有撇号和双引号都被替换为 'jibberish'。当我尝试将内容粘贴到记事本、notepad++、sublime 编辑器,然后将其粘贴到他们的 Raw HTML 编辑器时,我也遇到了同样的问题。

这是问题的记录和一些示例: https://streamable.com/phwn2

Here are the known characters that get replaced and what they get replaced

  • ’ turns into â™

  • “ turns into âœ

  • ” turns into â

  • + turns into (a space)

  • Å turns into Ã…

  • " stays as "

  • ' stays as '

有没有人看到带有这些字符的模式或知道这些字符被替换的可能原因是什么?

该网站可能使用 UTF-8 编码,公司的编辑可能使用类似 Windows-1252 的编码。在您的第一个示例中,正确的单引号具有 UTF-8 编码 e2 80 99。当使用 Windows-1252 的程序读取这些字节中的每一个时,您会得到 "small latin letter a with circumflex" (e2),[undefined ] 80 和 "trademark" (99)。我还没有检查其他转换。如果这是问题所在,那么您可以先使用 iconv 将复制的字符转换为目标编码,然后再粘贴到公司的编辑器中。