UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in position 10752-10753: truncated \uXXXX escape

Question

当我尝试读取数据时出现此错误

UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in position 10752-10753: truncated \uXXXX escape

我试图在数据前放一个 r 以将其转换为原始字符串，但我没有成功。

有什么建议吗？？

读取数据

pd.set_option('display.max_colwidth',100)                                       # extend Columns display lenght to 100 Char
data = pd.read_csv(r'de_full_1.tsv',sep="\t", encoding= "unicode_escape")
data.head(100)

提到的行是：

10751 GerSenNeg429 负太阳落在“太阳谷”。 10752 GerSenNeg430 负空荡荡的大厅，深坑 10753 GerSenNeg431 负 Hanwha-Q-Cells AG 中央大门的几盆植物。 10754 GerSenNeg432 negative 混凝土建筑，看起来像一个玻璃掩体，是查询线路的终点。

picture of rows

First rows

Answer 1

我不能完全确定，因为您没有在提到的字节位置周围提供文件内容，但我假设数据只是随意使用 \ 字符的常规文本。

但是，使用 encoding="unicode_escape" 意味着文件正在使用 \uXXXX 序列编码 Unicode 字符（例如 \u03A8 字符 Ψ），因此如果 \u 或 \U 以另一种方式使用，不匹配有效的 Unicode 转义序列（例如字符串 C:\Users\Somebody），您会收到错误消息。

您的 encoding 应该是另一个。如果没有看到您的文件，很难说是哪个，但很可能应该是 utf_8、ascii 或 latin_1.

UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in position 10752-10753: truncated \uXXXX escape

UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in position 10752-10753: truncated \uXXXX escape

python

unicode-escapes

读取数据