将许多 json 个字符串与 python pandas 个输入合并

Merge Many json strings with python pandas inputs

总结

我创建的数据对象由(除其他外)pandas 个对象组成,例如 DataFrames 和 Panels。我希望将这些对象序列化为 json,速度是首要考虑因素。

示例使用 pandas.Panel

比如说我有一个这样的面板:

In [54]: panel = pandas.Panel( 
             numpy.random.randn(5, 100, 10), 
             items = ['a', 'b', 'c', 'd', 'e'], 
             major_axis = pandas.DatetimeIndex(start = '01/01/2000', 
                                               freq = 'b', 
                                               periods = 100
             ), 
             minor_axis = ['z', 'y', 'x', 'v', 'u', 't', 's', 'r', 'q', 'o']
          )
In [64]: panel
Out[64]: 
<class 'pandas.core.panel.Panel'>
Dimensions: 5 (items) x 100 (major_axis) x 10 (minor_axis)
Items axis: a to e
Major_axis axis: 2000-01-03 00:00:00 to 2000-05-19 00:00:00
Minor_axis axis: z to o

我想把这个 panel 变成扁平的 json

注意:我正在对更复杂的对象执行此操作,但循环键和为每个键生成 json 数据的总体逻辑是相同的

我可以像这样写一个又快又脏的 panel_to_json() 函数:

def panel_to_json(panel):

    d = {'__type__' : 'panel'}
    for item in panel.items:
        tmp = panel.loc[item ,: , :].to_json()
        d[item] = eval(tmp)
    return json.dumps(d)

In [58]: tmp = panel_to_json(panel)
In [59]: tmp[:100]
Out[59]: '{"a": {"q": {"948931200000": -0.5586319118, "951955200000": 0.6820748888, "949363200000": -0.0153867'

这让我得到了正确的结果,问题是 eval 的使用 非常 昂贵。例如,如果我删除 eval 并只处理由 panel_no_eval_to_json 函数产生的 \ 的零星信息:

def panel_no_eval_to_json(panel):
    d = {'__type__' : 'panel'}
    for item in panel.items:
        d[item] = panel.loc[item ,: , :].to_json()
    return json.dumps(d)

In [60]: tmp = panel_no_eval_to_json(panel)

In [61]: tmp[:100]
Out[61]: '{"a": "{\"z\":{\"946857600000\":1.0233515965,\"946944000000\":-1.1333560575,\"947030400000\":-0.0072'

速度差异很大,检查它们的 %timeit 值!!:

In [62]: %timeit panel_no_eval_to_json(panel)
100 loops, best of 3: 3.55 ms per loop

In [63]: %timeit panel_to_json(panel)
10 loops, best of 3: 41.1 ms per loop

最终目标

所以我的最终目标是遍历 Panel(或我的对象,它具有不同的键/属性,其中许多是 PanelDataFrame ),并将通过调用 to_json() 创建的 json 流合并到聚合的 json 流中(这实际上是我的数据对象的展平数据表示),就像使用 panel_to_json 上面的函数(那个 eval)。

我的主要目标是:

  1. 利用现有 pandas to_json 功能
  2. 利用加速和现有库(我可以自己编写 json_stream_merger,但显然这已经完成了,对吧?)

如果您需要做的只是去掉“\\”,您可以使用
.str.strip("\") #or

`.str.replace("\","") `

您应该阅读字符串方法、矢量化字符串方法和正则表达式。这是 pandas 具体信息 link:

http://pandas.pydata.org/pandas-docs/stable/text.html#text-string-methods

您是否考虑过合并数据帧然后 "to_json" 该帧?你可以使用 pd.merge(masterdf, panel[item], how="outer")。只是想一想,我没有使用过面板,所以不确定 json 表示是否准确。您也可以尝试在循环中使用它。您还应该考虑使用 iteritems() 方法。

masterdf = pd.concat([masterdf, panel[item]], axis = 1, keys =[list(masterdf.columns.values), item]) and then make that into a json.  

您甚至可以做一些更性感的事情,例如:

pd.concat([lamda x: x for panel.items], axis = 1, keys = list(panel.keys())).to_json

最后,最快的方法是写一个简单的字符串concat-er。这是两个最佳解决方案,(一个由@Skorp 提供))及其各自的 %timeit 图形形式的时间

方法一String-Merge

def panel_to_json_string(panel):
    def __merge_stream(key, stream):
        return '"' + key + '"' + ': ' + stream + ', '

    try:
        stream = '{ "__type__": "panel", '
        for item in panel.items:
            stream += __merge_stream(item, panel.loc[item, :, :].to_json()) 

        # take out extra last comma
        stream = stream[:-2] 

        # add the final paren
        stream += '}'
    except:
        logging.exception('Panel Encoding did not work')
return stream

方法二。Loads-Dumps

def panel_to_json_loads(panel):
    try:
        d = {'__type__' : 'panel'}

        for item in panel.items:
            d[item] = json.loads(panel.loc[item ,: , :].to_json())
        return json.dumps(d)
    except:
        logging.exception('Panel Encoding did not work')

问题设置

import timeit
import pandas
import numpy

setup = ("import strat_check.io as sio; import pandas; import numpy;" 
     "panel = pandas.Panel(numpy.random.randn(5, {0}, 4), "
     "items = ['a', 'b', 'c', 'd', 'e'], " 
     "major_axis = pandas.DatetimeIndex(start = '01/01/1990',"
                                        "freq = 's', "
                                        "periods = {0}), "
                                        "minor_axis = numpy.arange(4))")

vals = [10, 100, 1000, 10000, 100000]

d = {'string-merge': [], 
     'loads-dumps': []
     }

for n in vals:
    number = 10

d['string-merge'].append(
    timeit.timeit(stmt = 'panel_to_json_string(panel)', 
                  setup = setup.format(n), 
                  number = number)
)

d['loads-dumps'].append(
    timeit.timeit(stmt = 'sio.panel_to_json_loads(panel)', 
                  setup = setup.format(n), 
                  number = number)
)