由于缺少 , 无法处理 json 数据集?
Cant process json dataset due to missing ,?
我有一个 json 数据集,我想将其用于 ml 项目,在每条记录之后它都缺少逗号 (,),所以我无法使用 [=17= 处理它].我该怎么做才能更正文件的格式?
数据集的 link 是
[https://www.kaggle.com/datasets/rmisra/news-category-dataset][1]
文件的每一行都是它自己的,json。你可以把它们放在一个列表中,形成一个 df:
import json
import pandas as pd
with open('News_Category_Dataset_v2.json', 'r') as f:
df = pd.DataFrame([json.loads(l) for l in f.readlines()])
print(df)
输出:
category ... date
0 CRIME ... 2018-05-26
1 ENTERTAINMENT ... 2018-05-26
2 ENTERTAINMENT ... 2018-05-26
3 ENTERTAINMENT ... 2018-05-26
4 ENTERTAINMENT ... 2018-05-26
... ... ... ...
200848 TECH ... 2012-01-28
200849 SPORTS ... 2012-01-28
200850 SPORTS ... 2012-01-28
200851 SPORTS ... 2012-01-28
200852 SPORTS ... 2012-01-28
[200853 rows x 6 columns]
我有一个 json 数据集,我想将其用于 ml 项目,在每条记录之后它都缺少逗号 (,),所以我无法使用 [=17= 处理它].我该怎么做才能更正文件的格式? 数据集的 link 是 [https://www.kaggle.com/datasets/rmisra/news-category-dataset][1]
文件的每一行都是它自己的,json。你可以把它们放在一个列表中,形成一个 df:
import json
import pandas as pd
with open('News_Category_Dataset_v2.json', 'r') as f:
df = pd.DataFrame([json.loads(l) for l in f.readlines()])
print(df)
输出:
category ... date
0 CRIME ... 2018-05-26
1 ENTERTAINMENT ... 2018-05-26
2 ENTERTAINMENT ... 2018-05-26
3 ENTERTAINMENT ... 2018-05-26
4 ENTERTAINMENT ... 2018-05-26
... ... ... ...
200848 TECH ... 2012-01-28
200849 SPORTS ... 2012-01-28
200850 SPORTS ... 2012-01-28
200851 SPORTS ... 2012-01-28
200852 SPORTS ... 2012-01-28
[200853 rows x 6 columns]