由于缺少 , 无法处理 json 数据集？

Question

我有一个 json 数据集，我想将其用于 ml 项目，在每条记录之后它都缺少逗号 (,)，所以我无法使用 [=17= 处理它].我该怎么做才能更正文件的格式？数据集的 link 是 [https://www.kaggle.com/datasets/rmisra/news-category-dataset][1]

Answer 1

文件的每一行都是它自己的，json。你可以把它们放在一个列表中，形成一个 df:

import json
import pandas as pd

with open('News_Category_Dataset_v2.json', 'r') as f:
    df = pd.DataFrame([json.loads(l) for l in f.readlines()])

print(df)

输出：

             category  ...        date
0               CRIME  ...  2018-05-26
1       ENTERTAINMENT  ...  2018-05-26
2       ENTERTAINMENT  ...  2018-05-26
3       ENTERTAINMENT  ...  2018-05-26
4       ENTERTAINMENT  ...  2018-05-26
...               ...  ...         ...
200848           TECH  ...  2012-01-28
200849         SPORTS  ...  2012-01-28
200850         SPORTS  ...  2012-01-28
200851         SPORTS  ...  2012-01-28
200852         SPORTS  ...  2012-01-28

[200853 rows x 6 columns]

由于缺少 , 无法处理 json 数据集？

Cant process json dataset due to missing ,?

formatting

json

pandas