如何使用 pandas 解析 jsonlines 文件
How to parse jsonlines file using pandas
我是 python 的新手,正在尝试从包含数百万行的文件中解析数据。试图去老学校使用 excel 解析它,但它失败了。我怎样才能有效地解析信息并将它们导出到 excel 文件中,以便其他人更容易阅读?
我尝试使用其他人提供的代码,但到目前为止没有成功
import re
import pandas as pd
def clean_data(filename):
with open(filename, "r") as inputfile:
for row in inputfile:
if re.match("\[", row) is None:
yield row
with open(clean_file, 'w') as outputfile:
for row in clean_data(filename):
outputfile.write(row)
NameError: name 'clean_file' is not defined
看起来clean_file
没有定义,这可能是copy/pasteing代码的问题。
您是要写入名为 "clean_file" 的文件吗?在这种情况下,您需要将其用引号引起来:with open("clean_file", 'w')
如果您想与 json 一起工作,我建议查看 json package which has lots of tools for loading and parsing json. Otherwise, if the json is flat, you can just use the inbuilt pandas function read_json
我是 python 的新手,正在尝试从包含数百万行的文件中解析数据。试图去老学校使用 excel 解析它,但它失败了。我怎样才能有效地解析信息并将它们导出到 excel 文件中,以便其他人更容易阅读?
我尝试使用其他人提供的代码,但到目前为止没有成功
import re
import pandas as pd
def clean_data(filename):
with open(filename, "r") as inputfile:
for row in inputfile:
if re.match("\[", row) is None:
yield row
with open(clean_file, 'w') as outputfile:
for row in clean_data(filename):
outputfile.write(row)
NameError: name 'clean_file' is not defined
看起来clean_file
没有定义,这可能是copy/pasteing代码的问题。
您是要写入名为 "clean_file" 的文件吗?在这种情况下,您需要将其用引号引起来:with open("clean_file", 'w')
如果您想与 json 一起工作,我建议查看 json package which has lots of tools for loading and parsing json. Otherwise, if the json is flat, you can just use the inbuilt pandas function read_json