Panda 中的编码错误 read_csv
Encoding Error in Panda read_csv
我正在尝试将 CSV 文件读入 Pandas 中的 Dataframe。当我尝试这样做时,出现以下错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x96 in position 55: invalid start byte
这来自代码:
import pandas as pd
location = r"C:\Users\khtad\Documents\test.csv"
df = pd.read_csv(location, header=0, quotechar='"')
这是在 Windows 7 Enterprise Service Pack 1 机器上,它似乎适用于我创建的每个 CSV 文件。在这种特殊情况下,位置 55 的二进制文件是 00101001,位置 54 是 01110011,如果这很重要的话。
使用文本编辑器将文件另存为 UTF-8 似乎也无济于事。同样,添加参数 "encoding='utf-8' 也不起作用——它 returns 同样的错误。
导致此错误的最可能原因是什么?除了暂时放弃 DataFrame 构造并使用 csv 模块逐行读取 CSV 之外,还有其他解决方法吗?
尝试用 encoding='latin1'
、encoding='iso-8859-1'
或 encoding='cp1252'
调用 read_csv
(这些是在 Windows 上找到的一些不同编码)。
这在 Mac 中也有效,您也可以使用
df= pd.read_csv('Region_count.csv', encoding ='latin1')
我正在尝试将 CSV 文件读入 Pandas 中的 Dataframe。当我尝试这样做时,出现以下错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x96 in position 55: invalid start byte
这来自代码:
import pandas as pd
location = r"C:\Users\khtad\Documents\test.csv"
df = pd.read_csv(location, header=0, quotechar='"')
这是在 Windows 7 Enterprise Service Pack 1 机器上,它似乎适用于我创建的每个 CSV 文件。在这种特殊情况下,位置 55 的二进制文件是 00101001,位置 54 是 01110011,如果这很重要的话。
使用文本编辑器将文件另存为 UTF-8 似乎也无济于事。同样,添加参数 "encoding='utf-8' 也不起作用——它 returns 同样的错误。
导致此错误的最可能原因是什么?除了暂时放弃 DataFrame 构造并使用 csv 模块逐行读取 CSV 之外,还有其他解决方法吗?
尝试用 encoding='latin1'
、encoding='iso-8859-1'
或 encoding='cp1252'
调用 read_csv
(这些是在 Windows 上找到的一些不同编码)。
这在 Mac 中也有效,您也可以使用
df= pd.read_csv('Region_count.csv', encoding ='latin1')