Pandas read_csv - 修改 Excel .csv 文件后标记化数据时出错

Pandas read_csv - Error tokenizing data after modifying Excel .csv file

我有一个 ML 分类器的 CSV 数据集。它有 2 列,看起来像这样:

但是这个数据集非常脏,所以我决定用 Excel 打开它,删除“脏”字,并将其另存为新的 CSV 文件并在其上训练我的 ML 分类器。

但是在我将它保存在 Excel 中之后(使用 , 分隔符并尝试了 , UTF-8),并且在尝试 pd.read_csv 时,它给了我这个错误:

Error tokenizing data. C error: Expected 3 fields in line 4, saw 5

然后我尝试将 sep=';'read_csv 一起使用,它起作用了,但现在所有俄语字符都被奇怪的符号替换了:

有人可以解释一下如何修复俄语字符中的“问题”符号吗? encoding='UTF-8' 给出此错误:

'utf-8' codec can't decode byte 0xe6 in position 22: invalid continuation byte

这是第一个文件的样子(未修改 Excel .csv 文件):

当我打开第二个文件(已修改)时:

尝试使用 ptcp154kz1048 编码打开文件。它们似乎有效。