读取带有汉字的CSV文件[一个字符无法显示]

Reading CSV file with Chinese Character [One character cannot be shown]

当我使用Microsoft Excel、TextWrangler 和Sublime Text 打开包含中文的csv 文件时,有些中文无法正常显示。我不知道为什么会这样。

具体的csv文件可以在下面link找到:https://www.hkex.com.hk/eng/plw/csv/List_of_Current_SEHK_EP.CSV

其中一个无法正确显示的词如下所示:

如您所见?能够被找到的。

按照建议使用 mac 文件命令 http://osxdaily.com/2015/08/11/determine-file-type-encoding-command-line-mac-os-x/告诉我csv格式是utf-16le。

我想知道有什么问题,为什么我无法阅读该特定文本? 跟编码有关系吗?还是跟我的笔记本设置有关?尝试在 Mac 上使用 Mac 和 windows 10(通过 Parallel Desktop)无法正确显示作品。

感谢您的帮助。我真的很想知道为什么这个特定的文本不能正常显示。

汇丰证券实名是:

滙豐金融證券(香港)有限公司

第一个字符 U+6ED9 是麻烦的 HKSCS 字符之一:在标准的 Unicode 之前的 Big-5 中不可用的字符,这些字符被移植到以后不兼容的方式。

有一段时间,在转换为 Unicode 时,有一个不幸的约定,将这些字符转换为专用区字符。这个数据大概是当时转换的,现在被破坏了,用 U+E05E 专用区域字符替换

对于您确定是 HKSCS-compatibility-bodge 结果的 PUA 案例,您可以使用 this table.

转换回正确的 Unicode