如何使用 pandas 解析 jsonlines 文件

How to parse jsonlines file using pandas

我是 python 的新手,正在尝试从包含数百万行的文件中解析数据。试图去老学校使用 excel 解析它,但它失败了。我怎样才能有效地解析信息并将它们导出到 excel 文件中,以便其他人更容易阅读?

我尝试使用其他人提供的代码,但到目前为止没有成功

import re
import pandas as pd

def clean_data(filename):
    with open(filename, "r") as inputfile:
        for row in inputfile:
            if re.match("\[", row) is None:
                yield row

with open(clean_file,  'w') as outputfile:
    for row in clean_data(filename):
        outputfile.write(row)
NameError: name 'clean_file' is not defined

看起来clean_file没有定义,这可能是copy/pasteing代码的问题。

您是要写入名为 "clean_file" 的文件吗?在这种情况下,您需要将其用引号引起来:with open("clean_file", 'w')

如果您想与 json 一起工作,我建议查看 json package which has lots of tools for loading and parsing json. Otherwise, if the json is flat, you can just use the inbuilt pandas function read_json