Panda 中的编码错误 read_csv

Question

我正在尝试将 CSV 文件读入 Pandas 中的 Dataframe。当我尝试这样做时，出现以下错误：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x96 in position 55: invalid start byte

这来自代码：

import pandas as pd

location = r"C:\Users\khtad\Documents\test.csv"

df = pd.read_csv(location, header=0, quotechar='"')

这是在 Windows 7 Enterprise Service Pack 1 机器上，它似乎适用于我创建的每个 CSV 文件。在这种特殊情况下，位置 55 的二进制文件是 00101001，位置 54 是 01110011，如果这很重要的话。

使用文本编辑器将文件另存为 UTF-8 似乎也无济于事。同样，添加参数 "encoding='utf-8' 也不起作用——它 returns 同样的错误。

导致此错误的最可能原因是什么？除了暂时放弃 DataFrame 构造并使用 csv 模块逐行读取 CSV 之外，还有其他解决方法吗？

Answer 1

尝试用 encoding='latin1'、encoding='iso-8859-1' 或 encoding='cp1252' 调用 read_csv（这些是在 Windows 上找到的一些不同编码）。

Answer 2

这在 Mac 中也有效，您也可以使用

df= pd.read_csv('Region_count.csv', encoding ='latin1')

Encoding Error in Panda read_csv