Pandas read_csv - 处理 ID 号带有连续“$”和“#”符号以及字母和数字的列
Pandas read_csv - dealing with columns that have ID numbers with consecutive '$' and '#' symbols, along with letters and digits
我正在尝试读取一个包含一列数据的 csv 文件,该文件的 ID 号经过打乱,其中偶尔包含连续的 $$ 以及 #、数字和字母。
SCRAMBLE_ID
AL9LLL677
AL9$AM657
$L9$40
#L96A1
等等
我尝试了以下方法:
df = pd.read_csv('MASTER~1.CSV',
dtype = {'SCRAMBLE_ID': str})
将第三个条目呈现为 L9$4440(L9 以衬线字体显示,斜体,第一个和第二个 $ 消失)。
面对以这种方式配置的一整列身份证号码,处理此类数据的最佳方式是什么?我可以想象:
- 在 pd.read_csv 之前:用不会造成此问题的替代品替换有问题的符号(以及它们会是什么),或者,
- 有没有办法按原样保留 ID,但将它们变成一种数据类型,在保持它们存在的同时忽略这些符号?
谢谢。我在下面附上了 .csv 的屏幕截图和生成的 df(Jupyter 笔记本)。
csv column to pandas df with $$
我无法在模拟 CSV 文件中使用与您相同的值来复制它。
您确定在呈现数据框值的任何地方都不会出现基于 $ 符号的格式设置吗?您是否检查过数据框中的数据是否符合您的预期,或者您只是在外部渲染它?
我正在尝试读取一个包含一列数据的 csv 文件,该文件的 ID 号经过打乱,其中偶尔包含连续的 $$ 以及 #、数字和字母。
SCRAMBLE_ID |
---|
AL9LLL677 |
AL9$AM657 |
$L9$40 |
#L96A1 |
等等
我尝试了以下方法:
df = pd.read_csv('MASTER~1.CSV',
dtype = {'SCRAMBLE_ID': str})
将第三个条目呈现为 L9$4440(L9 以衬线字体显示,斜体,第一个和第二个 $ 消失)。
面对以这种方式配置的一整列身份证号码,处理此类数据的最佳方式是什么?我可以想象:
- 在 pd.read_csv 之前:用不会造成此问题的替代品替换有问题的符号(以及它们会是什么),或者,
- 有没有办法按原样保留 ID,但将它们变成一种数据类型,在保持它们存在的同时忽略这些符号?
谢谢。我在下面附上了 .csv 的屏幕截图和生成的 df(Jupyter 笔记本)。
csv column to pandas df with $$
我无法在模拟 CSV 文件中使用与您相同的值来复制它。
您确定在呈现数据框值的任何地方都不会出现基于 $ 符号的格式设置吗?您是否检查过数据框中的数据是否符合您的预期,或者您只是在外部渲染它?