Pandas read_csv - 修改 Excel .csv 文件后标记化数据时出错

Question

我有一个 ML 分类器的 CSV 数据集。它有 2 列，看起来像这样：

但是这个数据集非常脏，所以我决定用 Excel 打开它，删除“脏”字，并将其另存为新的 CSV 文件并在其上训练我的 ML 分类器。

但是在我将它保存在 Excel 中之后（使用 , 分隔符并尝试了 , UTF-8），并且在尝试 pd.read_csv 时，它给了我这个错误:

Error tokenizing data. C error: Expected 3 fields in line 4, saw 5

然后我尝试将 sep=';' 与 read_csv 一起使用，它起作用了，但现在所有俄语字符都被奇怪的符号替换了：

有人可以解释一下如何修复俄语字符中的“问题”符号吗？ encoding='UTF-8' 给出此错误：

'utf-8' codec can't decode byte 0xe6 in position 22: invalid continuation byte

这是第一个文件的样子（未修改 Excel .csv 文件）：

当我打开第二个文件（已修改）时：

Answer 1

尝试使用 ptcp154 或 kz1048 编码打开文件。它们似乎有效。

Pandas read_csv - Error tokenizing data after modifying Excel .csv file