使用 Python 问题解析多行 JSON 文件

Issue parsing multiline JSON file using Python

我正在尝试使用 Python 2.7 中的 json 库来解析 JSON 多行文件。下面给出了一个简化的示例文件:

{
"observations": {
    "notice": [
        {
            "copyright": "Copyright Commonwealth of Australia 2015, Bureau of Meteorology. For more information see: http://www.bom.gov.au/other/copyright.shtml http://www.bom.gov.au/other/disclaimer.shtml",
            "copyright_url": "http://www.bom.gov.au/other/copyright.shtml",
            "disclaimer_url": "http://www.bom.gov.au/other/disclaimer.shtml",
            "feedback_url": "http://www.bom.gov.au/other/feedback"
        }
    ]
}
}

我的代码如下:

import json

with open('test.json', 'r') as jsonFile:
    for jf in jsonFile:
        jf = jf.replace('\n', '')
        jf = jf.strip()
        weatherData = json.loads(jf)
        print weatherData

然而,我收到如下所示的错误:

Traceback (most recent call last):
File "test.py", line 8, in <module>
weatherData = json.loads(jf)
File "/home/usr/anaconda2/lib/python2.7/json/__init__.py", line 339, in loads
return _default_decoder.decode(s)
File "/home/usr/anaconda2/lib/python2.7/json/decoder.py", line 364, in decode
obj, end = self.raw_decode(s, idx=_w(s, 0).end())
File "/home/usr/anaconda2/lib/python2.7/json/decoder.py", line 380, in raw_decode
obj, end = self.scan_once(s, idx)
ValueError: Expecting object: line 1 column 1 (char 0)

为了做一些测试,我修改了代码,在删除换行符并去除前导和尾随空格后,我将内容写入另一个文件(扩展名为 json)。令人惊讶的是,当我回读后一个文件时,我没有收到任何错误并且解析成功。修改后的代码如下:

import json

filewrite = open('out.json', 'w+')

with open('test.json', 'r') as jsonFile:
    for jf in jsonFile:
        jf = jf.replace('\n', '')
        jf = jf.strip()
        filewrite.write(jf)

filewrite.close()

with open('out.json', 'r') as newJsonFile:
    for line in newJsonFile:
        weatherData = json.loads(line)
        print weatherData

输出结果如下:

{u'observations': {u'notice': [{u'copyright_url': u'http://www.bom.gov.au/other/copyright.shtml', u'disclaimer_url': u'http://www.bom.gov.au/other/disclaimer.shtml', u'copyright': u'Copyright Commonwealth of Australia 2015, Bureau of Meteorology. For more information see: http://www.bom.gov.au/other/copyright.shtml http://www.bom.gov.au/other/disclaimer.shtml', u'feedback_url': u'http://www.bom.gov.au/other/feedback'}]}}

知道在使用 json 库之前去除新行和空格会发生什么吗?

在第一个片段中,您尝试逐行解析它。你应该一次解析它。最简单的是使用json.load(jsonfile)。 (jf 变量名称具有误导性,因为它是一个字符串)。所以正确的解析方式:

import json

with open('test.json', 'r') as jsonFile:
    weatherData = json.loads(jsonFile)

虽然将 json 存储在一行中是个好主意,因为它更简洁。

在第二个片段中,您的问题是您将其打印为 unicode 字符串,而 u'string here' 是 python 特定的。有效的json使用双引号

仅供参考,您可以在单个 with 语句中打开两个文件:

with open('file_A') as in_, open('file_B', 'w+') as out_:
    # logic here
    ...

如果您尝试逐行解析 json 文件,您将发疯。 json 模块具有直接读取文件对象或字符串的辅助方法,即 loadloads 方法。 load 为包含 json 数据的文件获取文件对象(如下所示),而 loads 获取包含 json 数据的字符串。

选项 1:- 首选

import json
with open('test.json', 'r') as jf:
    weatherData = json.load(jf)
    print weatherData

选项 2:

import json
with open('test.json', 'r') as jf:
    weatherData = json.loads(jf.read())
    print weatherData

如果您正在寻找更高的性能 json 解析,请查看 ujson