Pandas read_csv - 修改 Excel .csv 文件后标记化数据时出错
Pandas read_csv - Error tokenizing data after modifying Excel .csv file
我有一个 ML 分类器的 CSV 数据集。它有 2 列,看起来像这样:
但是这个数据集非常脏,所以我决定用 Excel 打开它,删除“脏”字,并将其另存为新的 CSV 文件并在其上训练我的 ML 分类器。
但是在我将它保存在 Excel 中之后(使用 ,
分隔符并尝试了 , UTF-8
),并且在尝试 pd.read_csv
时,它给了我这个错误:
Error tokenizing data. C error: Expected 3 fields in line 4, saw 5
然后我尝试将 sep=';'
与 read_csv
一起使用,它起作用了,但现在所有俄语字符都被奇怪的符号替换了:
有人可以解释一下如何修复俄语字符中的“问题”符号吗? encoding='UTF-8'
给出此错误:
'utf-8' codec can't decode byte 0xe6 in position 22: invalid continuation byte
这是第一个文件的样子(未修改 Excel .csv
文件):
当我打开第二个文件(已修改)时:
尝试使用 ptcp154
或 kz1048
编码打开文件。它们似乎有效。
我有一个 ML 分类器的 CSV 数据集。它有 2 列,看起来像这样:
但是这个数据集非常脏,所以我决定用 Excel 打开它,删除“脏”字,并将其另存为新的 CSV 文件并在其上训练我的 ML 分类器。
但是在我将它保存在 Excel 中之后(使用 ,
分隔符并尝试了 , UTF-8
),并且在尝试 pd.read_csv
时,它给了我这个错误:
Error tokenizing data. C error: Expected 3 fields in line 4, saw 5
然后我尝试将 sep=';'
与 read_csv
一起使用,它起作用了,但现在所有俄语字符都被奇怪的符号替换了:
有人可以解释一下如何修复俄语字符中的“问题”符号吗? encoding='UTF-8'
给出此错误:
'utf-8' codec can't decode byte 0xe6 in position 22: invalid continuation byte
这是第一个文件的样子(未修改 Excel .csv
文件):
当我打开第二个文件(已修改)时:
尝试使用 ptcp154
或 kz1048
编码打开文件。它们似乎有效。