修复 UTF-8 文本中的 mojibakes
Fixing mojibakes in UTF-8 text
我有一个包含 UTF-8 葡萄牙语文本的文件。不知何故,制作文件的人选择了错误的编码,文本中充满了mojibake:
IDENTIFICAÌàÌÄO instead of identificação
André instead of André
自动化工具没有发现文件有任何问题。我试图用 Python package ftfy 修复它无济于事。
除了手动替换所有不正确的字符外,我该如何修复此文件?
"André" 而不是 "André" 是 UTF-8 编码的 Latin-1 解释。
您可以通过反转 encoding/decoding:
来修复它
>>> 'André'.encode('latin-1').decode('utf-8')
'André'
遵循此模式的所有情况都可以这样解决。
但是,我无法解释另一种情况(用“Ìà”表示“ç”,用“ÌÄ”表示“ã”),因此无法提供解决方案。
如果您能找到“Ì”、“à”和“Ä”分别具有代码点 C3、A7 和 A3 的编解码器,那么您可以使用它来代替 Latin-1 来修复文本。
我有一个包含 UTF-8 葡萄牙语文本的文件。不知何故,制作文件的人选择了错误的编码,文本中充满了mojibake:
IDENTIFICAÌàÌÄO instead of identificação
André instead of André
自动化工具没有发现文件有任何问题。我试图用 Python package ftfy 修复它无济于事。 除了手动替换所有不正确的字符外,我该如何修复此文件?
"André" 而不是 "André" 是 UTF-8 编码的 Latin-1 解释。 您可以通过反转 encoding/decoding:
来修复它>>> 'André'.encode('latin-1').decode('utf-8')
'André'
遵循此模式的所有情况都可以这样解决。
但是,我无法解释另一种情况(用“Ìà”表示“ç”,用“ÌÄ”表示“ã”),因此无法提供解决方案。 如果您能找到“Ì”、“à”和“Ä”分别具有代码点 C3、A7 和 A3 的编解码器,那么您可以使用它来代替 Latin-1 来修复文本。