处理 CSV 值中的逗号、引号
Dealing with comma, quotemarks in values in CSV
我正在尝试将某个 CSV 文件转换为 pandas 数据帧。 CSV有一些列,例如文本,display_name和user_status,这些字段可以在其值中接收逗号(,)和引号(“或')。我的CSV的分隔符也是逗号和由于所有字段都是字符串,因此它在每个字段中都有引号(请参见下面的示例)。尝试将其导入数据框时,将跳过所有带有此额外逗号的行(Skipping line 10: Expected 10 fields in line 10, saw 12
)。我该如何处理有吗?
CSV header:
text,created_at,verified,followers_count,friends_count,statuses_count,user.created_at,screen_name,name,link
'text_string, it can contain commas and "quotemarks"','2020-04-08 03:00:47','False','278','631','13869','2018-07-03 20:18:49','screen_name','name','tweet_link'
你可以使用下面的代码
df = pd.read_csv('data.csv', quotechar="'")
从这里被盗
尝试在 pandas.read_csv 中设置 quotechar:
df = pd.read_csv("tweets.csv", quotechar="'")
如果可以,请在文本编辑器中打开 CSV 文件并使用正则表达式将分隔逗号更改为其他内容,例如一个分号。搜索夹在引号之间的逗号。
find: ','
replace: ';'
再次保存文件并指定分号作为分隔符:
foo = pd.read_csv('commas.csv', sep=';')
我正在尝试将某个 CSV 文件转换为 pandas 数据帧。 CSV有一些列,例如文本,display_name和user_status,这些字段可以在其值中接收逗号(,)和引号(“或')。我的CSV的分隔符也是逗号和由于所有字段都是字符串,因此它在每个字段中都有引号(请参见下面的示例)。尝试将其导入数据框时,将跳过所有带有此额外逗号的行(Skipping line 10: Expected 10 fields in line 10, saw 12
)。我该如何处理有吗?
CSV header:
text,created_at,verified,followers_count,friends_count,statuses_count,user.created_at,screen_name,name,link
'text_string, it can contain commas and "quotemarks"','2020-04-08 03:00:47','False','278','631','13869','2018-07-03 20:18:49','screen_name','name','tweet_link'
你可以使用下面的代码
df = pd.read_csv('data.csv', quotechar="'")
从这里被盗
尝试在 pandas.read_csv 中设置 quotechar:
df = pd.read_csv("tweets.csv", quotechar="'")
如果可以,请在文本编辑器中打开 CSV 文件并使用正则表达式将分隔逗号更改为其他内容,例如一个分号。搜索夹在引号之间的逗号。
find: ','
replace: ';'
再次保存文件并指定分号作为分隔符:
foo = pd.read_csv('commas.csv', sep=';')