UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in position 10752-10753: truncated \uXXXX escape

UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in position 10752-10753: truncated \uXXXX escape

当我尝试读取数据时出现此错误

UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in position 10752-10753: truncated \uXXXX escape

我试图在数据前放一个 r 以将其转换为原始字符串,但我没有成功。

有什么建议吗??

读取数据

pd.set_option('display.max_colwidth',100)                                       # extend Columns display lenght to 100 Char
data = pd.read_csv(r'de_full_1.tsv',sep="\t", encoding= "unicode_escape")
data.head(100)

提到的行是:

10751 GerSenNeg429 负 太阳落在“太阳谷”。 10752 GerSenNeg430 负 空荡荡的大厅,深坑 10753 GerSenNeg431 负 Hanwha-Q-Cells AG 中央大门的几盆植物。 10754 GerSenNeg432 negative 混凝土建筑,看起来像一个玻璃掩体,是查询线路的终点。

picture of rows

First rows

我不能完全确定,因为您没有在提到的字节位置周围提供文件内容,但我假设数据只是随意使用 \ 字符的常规文本。

但是,使用 encoding="unicode_escape" 意味着文件正在使用 \uXXXX 序列编码 Unicode 字符(例如 \u03A8 字符 Ψ),因此如果 \u\U 以另一种方式使用,不匹配有效的 Unicode 转义序列(例如字符串 C:\Users\Somebody),您会收到错误消息。

您的 encoding 应该是另一个。如果没有看到您的文件,很难说是哪个,但很可能应该是 utf_8asciilatin_1.