CSV 中的时髦文本编码

Funky text encoding in CSV

我正在努力将来自 FAA on-time performance dataset 的每月 CSV 连接到一个格式一致的大型平面文件中。

此数据的 12 个月(2001-02 到 2002-02)的 Tail Number 字段值出现奇怪的乱码。例如:

这些值以 ISO 8859-1 编码(无效的 utf8)。我通过在下一个好月份的数据集中搜索尾号的 "N###" 部分的唯一匹配项找到了未加扰的值(尾号是飞机的注册号,并且不会每月更改,所以我对此有相当的信心)。

我不知道这是否是我以前从未见过的一些时髦的文本编码方案,我可以将其转换回 UTF8 - 或者 FAA 用来编译 CSV 的代码中是否存在一些错误,而且这些数据只是垃圾。

如果您能帮助解决这个问题,我们将不胜感激。谢谢!

我联系了美国航空公司信息办公室。显然,数据发生的任何事情都是有损的,并且无法恢复正确的尾号。