如何在 pandas 中编码特殊字符?

How to Encode Special Character in pandas?

如何对 pandas 中的特殊字符进行编码。

my_csv:

column A
Id - Number
Id – Column

my_df = pd.read_csv('my_csv.csv', encoding = 'latin-1')

my_df

Id - Number
Id ? Column

在我的 csv 中有一列,即 A 列,它有两个值,当我在 pandas 中阅读此文件时,我的第二个值变成如下所示。我如何读取 csv 中的第二个值。

Id - Number  --> Id - Number
Id – Column  --> Id ? Column  --> it should be like Id – Column

字符 (U+2013) En Dash 在大多数 8 位 Windows 代码页中定义为 '\x96'

不幸的是,在 'iso-8859-1'(或 'latin-1',如果你愿意),这个字符是 U+0096 保护区开始(不可打印字符;因此问号作为替换字符)。

使用

import pandas as pd
my_df = pd.read_csv('my_csv.csv', encoding = 'cp1252')
my_df
      column A
0  Id - Number
1  Id – Column