如何在 pandas 中编码特殊字符?
How to Encode Special Character in pandas?
如何对 pandas 中的特殊字符进行编码。
my_csv:
column A
Id - Number
Id – Column
my_df = pd.read_csv('my_csv.csv', encoding = 'latin-1')
my_df
Id - Number
Id ? Column
在我的 csv 中有一列,即 A 列,它有两个值,当我在 pandas 中阅读此文件时,我的第二个值变成如下所示。我如何读取 csv 中的第二个值。
Id - Number --> Id - Number
Id – Column --> Id ? Column --> it should be like Id – Column
字符 –
(U+2013) En Dash 在大多数 8 位 Windows 代码页中定义为 '\x96'
。
不幸的是,在 'iso-8859-1'
(或 'latin-1'
,如果你愿意),这个字符是 U+0096 保护区开始(不可打印字符;因此问号作为替换字符)。
使用
import pandas as pd
my_df = pd.read_csv('my_csv.csv', encoding = 'cp1252')
my_df
column A
0 Id - Number
1 Id – Column
如何对 pandas 中的特殊字符进行编码。
my_csv:
column A
Id - Number
Id – Column
my_df = pd.read_csv('my_csv.csv', encoding = 'latin-1')
my_df
Id - Number
Id ? Column
在我的 csv 中有一列,即 A 列,它有两个值,当我在 pandas 中阅读此文件时,我的第二个值变成如下所示。我如何读取 csv 中的第二个值。
Id - Number --> Id - Number
Id – Column --> Id ? Column --> it should be like Id – Column
字符 –
(U+2013) En Dash 在大多数 8 位 Windows 代码页中定义为 '\x96'
。
不幸的是,在 'iso-8859-1'
(或 'latin-1'
,如果你愿意),这个字符是 U+0096 保护区开始(不可打印字符;因此问号作为替换字符)。
使用
import pandas as pd
my_df = pd.read_csv('my_csv.csv', encoding = 'cp1252')
my_df
column A 0 Id - Number 1 Id – Column