UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in position 10752-10753: truncated \uXXXX escape
UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in position 10752-10753: truncated \uXXXX escape
当我尝试读取数据时出现此错误
UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in
position 10752-10753: truncated \uXXXX escape
我试图在数据前放一个 r 以将其转换为原始字符串,但我没有成功。
有什么建议吗??
读取数据
pd.set_option('display.max_colwidth',100) # extend Columns display lenght to 100 Char
data = pd.read_csv(r'de_full_1.tsv',sep="\t", encoding= "unicode_escape")
data.head(100)
提到的行是:
10751 GerSenNeg429 负 太阳落在“太阳谷”。
10752 GerSenNeg430 负 空荡荡的大厅,深坑
10753 GerSenNeg431 负 Hanwha-Q-Cells AG 中央大门的几盆植物。
10754 GerSenNeg432 negative 混凝土建筑,看起来像一个玻璃掩体,是查询线路的终点。
picture of rows
First rows
我不能完全确定,因为您没有在提到的字节位置周围提供文件内容,但我假设数据只是随意使用 \
字符的常规文本。
但是,使用 encoding="unicode_escape"
意味着文件正在使用 \uXXXX
序列编码 Unicode 字符(例如 \u03A8
字符 Ψ
),因此如果 \u
或 \U
以另一种方式使用,不匹配有效的 Unicode 转义序列(例如字符串 C:\Users\Somebody
),您会收到错误消息。
您的 encoding
应该是另一个。如果没有看到您的文件,很难说是哪个,但很可能应该是 utf_8
、ascii
或 latin_1
.
当我尝试读取数据时出现此错误
UnicodeDecodeError: 'unicodeescape' codec can't decode bytes in position 10752-10753: truncated \uXXXX escape
我试图在数据前放一个 r 以将其转换为原始字符串,但我没有成功。
有什么建议吗??
读取数据
pd.set_option('display.max_colwidth',100) # extend Columns display lenght to 100 Char
data = pd.read_csv(r'de_full_1.tsv',sep="\t", encoding= "unicode_escape")
data.head(100)
提到的行是:
10751 GerSenNeg429 负 太阳落在“太阳谷”。 10752 GerSenNeg430 负 空荡荡的大厅,深坑 10753 GerSenNeg431 负 Hanwha-Q-Cells AG 中央大门的几盆植物。 10754 GerSenNeg432 negative 混凝土建筑,看起来像一个玻璃掩体,是查询线路的终点。
picture of rows
First rows
我不能完全确定,因为您没有在提到的字节位置周围提供文件内容,但我假设数据只是随意使用 \
字符的常规文本。
但是,使用 encoding="unicode_escape"
意味着文件正在使用 \uXXXX
序列编码 Unicode 字符(例如 \u03A8
字符 Ψ
),因此如果 \u
或 \U
以另一种方式使用,不匹配有效的 Unicode 转义序列(例如字符串 C:\Users\Somebody
),您会收到错误消息。
您的 encoding
应该是另一个。如果没有看到您的文件,很难说是哪个,但很可能应该是 utf_8
、ascii
或 latin_1
.