UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte error in python while reading a csv file
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte error in python while reading a csv file
StopWords = pd.read_csv('stopwords.csv',encoding='UTF-8', quotechar='|',names=['StopWords'])
我正在尝试读取包含波斯语文本的 CSV 文件,这是我收到的错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position
0: invalid start byte
如果没有看到文件的二进制内容,很难猜测实际的编码,但 UTF-8,无论有无 BOM(字节顺序标记)都不能以 0xFF 开头。
如果它以 0xFF 开头,则表明它可能是 Little Endian UTF-16 到 UTF-32,这是唯一具有以 0xFF 开头的字节顺序标记的 Unicode 序列化。
https://en.wikipedia.org/wiki/Byte_order_mark给出一些解释。
也有可能是波斯语特有的字符集。如果 Unicode 选项可用,则应避免使用国家字符集来生成源 CSV 文件。
StopWords = pd.read_csv('stopwords.csv',encoding='UTF-8', quotechar='|',names=['StopWords'])
我正在尝试读取包含波斯语文本的 CSV 文件,这是我收到的错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte
如果没有看到文件的二进制内容,很难猜测实际的编码,但 UTF-8,无论有无 BOM(字节顺序标记)都不能以 0xFF 开头。
如果它以 0xFF 开头,则表明它可能是 Little Endian UTF-16 到 UTF-32,这是唯一具有以 0xFF 开头的字节顺序标记的 Unicode 序列化。
https://en.wikipedia.org/wiki/Byte_order_mark给出一些解释。
也有可能是波斯语特有的字符集。如果 Unicode 选项可用,则应避免使用国家字符集来生成源 CSV 文件。