将许多 json 个字符串与 python pandas 个输入合并
Merge Many json strings with python pandas inputs
总结
我创建的数据对象由(除其他外)pandas
个对象组成,例如 DataFrame
s 和 Panel
s。我希望将这些对象序列化为 json
,速度是首要考虑因素。
示例使用 pandas.Panel
比如说我有一个这样的面板:
In [54]: panel = pandas.Panel(
numpy.random.randn(5, 100, 10),
items = ['a', 'b', 'c', 'd', 'e'],
major_axis = pandas.DatetimeIndex(start = '01/01/2000',
freq = 'b',
periods = 100
),
minor_axis = ['z', 'y', 'x', 'v', 'u', 't', 's', 'r', 'q', 'o']
)
In [64]: panel
Out[64]:
<class 'pandas.core.panel.Panel'>
Dimensions: 5 (items) x 100 (major_axis) x 10 (minor_axis)
Items axis: a to e
Major_axis axis: 2000-01-03 00:00:00 to 2000-05-19 00:00:00
Minor_axis axis: z to o
我想把这个 panel
变成扁平的 json
注意:我正在对更复杂的对象执行此操作,但循环键和为每个键生成 json
数据的总体逻辑是相同的
我可以像这样写一个又快又脏的 panel_to_json()
函数:
def panel_to_json(panel):
d = {'__type__' : 'panel'}
for item in panel.items:
tmp = panel.loc[item ,: , :].to_json()
d[item] = eval(tmp)
return json.dumps(d)
In [58]: tmp = panel_to_json(panel)
In [59]: tmp[:100]
Out[59]: '{"a": {"q": {"948931200000": -0.5586319118, "951955200000": 0.6820748888, "949363200000": -0.0153867'
这让我得到了正确的结果,问题是 eval
的使用 非常 昂贵。例如,如果我删除 eval
并只处理由 panel_no_eval_to_json
函数产生的 \
的零星信息:
def panel_no_eval_to_json(panel):
d = {'__type__' : 'panel'}
for item in panel.items:
d[item] = panel.loc[item ,: , :].to_json()
return json.dumps(d)
In [60]: tmp = panel_no_eval_to_json(panel)
In [61]: tmp[:100]
Out[61]: '{"a": "{\"z\":{\"946857600000\":1.0233515965,\"946944000000\":-1.1333560575,\"947030400000\":-0.0072'
速度差异很大,检查它们的 %timeit
值!!:
In [62]: %timeit panel_no_eval_to_json(panel)
100 loops, best of 3: 3.55 ms per loop
In [63]: %timeit panel_to_json(panel)
10 loops, best of 3: 41.1 ms per loop
最终目标
所以我的最终目标是遍历 Panel
(或我的对象,它具有不同的键/属性,其中许多是 Panel
和 DataFrame
),并将通过调用 to_json()
创建的 json
流合并到聚合的 json
流中(这实际上是我的数据对象的展平数据表示),就像使用 panel_to_json
上面的函数(那个 和 eval
)。
我的主要目标是:
- 利用现有
pandas to_json
功能
- 利用加速和现有库(我可以自己编写
json_stream_merger
,但显然这已经完成了,对吧?)
如果您需要做的只是去掉“\\”,您可以使用
.str.strip("\") #or
`.str.replace("\","") `
您应该阅读字符串方法、矢量化字符串方法和正则表达式。这是 pandas 具体信息 link:
http://pandas.pydata.org/pandas-docs/stable/text.html#text-string-methods
您是否考虑过合并数据帧然后 "to_json" 该帧?你可以使用 pd.merge(masterdf, panel[item], how="outer")。只是想一想,我没有使用过面板,所以不确定 json 表示是否准确。您也可以尝试在循环中使用它。您还应该考虑使用 iteritems() 方法。
masterdf = pd.concat([masterdf, panel[item]], axis = 1, keys =[list(masterdf.columns.values), item]) and then make that into a json.
您甚至可以做一些更性感的事情,例如:
pd.concat([lamda x: x for panel.items], axis = 1, keys = list(panel.keys())).to_json
最后,最快的方法是写一个简单的字符串concat
-er。这是两个最佳解决方案,(一个由@Skorp 提供))及其各自的 %timeit
图形形式的时间
方法一String-Merge
def panel_to_json_string(panel):
def __merge_stream(key, stream):
return '"' + key + '"' + ': ' + stream + ', '
try:
stream = '{ "__type__": "panel", '
for item in panel.items:
stream += __merge_stream(item, panel.loc[item, :, :].to_json())
# take out extra last comma
stream = stream[:-2]
# add the final paren
stream += '}'
except:
logging.exception('Panel Encoding did not work')
return stream
方法二。Loads-Dumps
def panel_to_json_loads(panel):
try:
d = {'__type__' : 'panel'}
for item in panel.items:
d[item] = json.loads(panel.loc[item ,: , :].to_json())
return json.dumps(d)
except:
logging.exception('Panel Encoding did not work')
问题设置
import timeit
import pandas
import numpy
setup = ("import strat_check.io as sio; import pandas; import numpy;"
"panel = pandas.Panel(numpy.random.randn(5, {0}, 4), "
"items = ['a', 'b', 'c', 'd', 'e'], "
"major_axis = pandas.DatetimeIndex(start = '01/01/1990',"
"freq = 's', "
"periods = {0}), "
"minor_axis = numpy.arange(4))")
vals = [10, 100, 1000, 10000, 100000]
d = {'string-merge': [],
'loads-dumps': []
}
for n in vals:
number = 10
d['string-merge'].append(
timeit.timeit(stmt = 'panel_to_json_string(panel)',
setup = setup.format(n),
number = number)
)
d['loads-dumps'].append(
timeit.timeit(stmt = 'sio.panel_to_json_loads(panel)',
setup = setup.format(n),
number = number)
)
总结
我创建的数据对象由(除其他外)pandas
个对象组成,例如 DataFrame
s 和 Panel
s。我希望将这些对象序列化为 json
,速度是首要考虑因素。
示例使用 pandas.Panel
比如说我有一个这样的面板:
In [54]: panel = pandas.Panel(
numpy.random.randn(5, 100, 10),
items = ['a', 'b', 'c', 'd', 'e'],
major_axis = pandas.DatetimeIndex(start = '01/01/2000',
freq = 'b',
periods = 100
),
minor_axis = ['z', 'y', 'x', 'v', 'u', 't', 's', 'r', 'q', 'o']
)
In [64]: panel
Out[64]:
<class 'pandas.core.panel.Panel'>
Dimensions: 5 (items) x 100 (major_axis) x 10 (minor_axis)
Items axis: a to e
Major_axis axis: 2000-01-03 00:00:00 to 2000-05-19 00:00:00
Minor_axis axis: z to o
我想把这个 panel
变成扁平的 json
注意:我正在对更复杂的对象执行此操作,但循环键和为每个键生成 json
数据的总体逻辑是相同的
我可以像这样写一个又快又脏的 panel_to_json()
函数:
def panel_to_json(panel):
d = {'__type__' : 'panel'}
for item in panel.items:
tmp = panel.loc[item ,: , :].to_json()
d[item] = eval(tmp)
return json.dumps(d)
In [58]: tmp = panel_to_json(panel)
In [59]: tmp[:100]
Out[59]: '{"a": {"q": {"948931200000": -0.5586319118, "951955200000": 0.6820748888, "949363200000": -0.0153867'
这让我得到了正确的结果,问题是 eval
的使用 非常 昂贵。例如,如果我删除 eval
并只处理由 panel_no_eval_to_json
函数产生的 \
的零星信息:
def panel_no_eval_to_json(panel):
d = {'__type__' : 'panel'}
for item in panel.items:
d[item] = panel.loc[item ,: , :].to_json()
return json.dumps(d)
In [60]: tmp = panel_no_eval_to_json(panel)
In [61]: tmp[:100]
Out[61]: '{"a": "{\"z\":{\"946857600000\":1.0233515965,\"946944000000\":-1.1333560575,\"947030400000\":-0.0072'
速度差异很大,检查它们的 %timeit
值!!:
In [62]: %timeit panel_no_eval_to_json(panel)
100 loops, best of 3: 3.55 ms per loop
In [63]: %timeit panel_to_json(panel)
10 loops, best of 3: 41.1 ms per loop
最终目标
所以我的最终目标是遍历 Panel
(或我的对象,它具有不同的键/属性,其中许多是 Panel
和 DataFrame
),并将通过调用 to_json()
创建的 json
流合并到聚合的 json
流中(这实际上是我的数据对象的展平数据表示),就像使用 panel_to_json
上面的函数(那个 和 eval
)。
我的主要目标是:
- 利用现有
pandas to_json
功能 - 利用加速和现有库(我可以自己编写
json_stream_merger
,但显然这已经完成了,对吧?)
如果您需要做的只是去掉“\\”,您可以使用
.str.strip("\") #or
`.str.replace("\","") `
您应该阅读字符串方法、矢量化字符串方法和正则表达式。这是 pandas 具体信息 link:
http://pandas.pydata.org/pandas-docs/stable/text.html#text-string-methods
您是否考虑过合并数据帧然后 "to_json" 该帧?你可以使用 pd.merge(masterdf, panel[item], how="outer")。只是想一想,我没有使用过面板,所以不确定 json 表示是否准确。您也可以尝试在循环中使用它。您还应该考虑使用 iteritems() 方法。
masterdf = pd.concat([masterdf, panel[item]], axis = 1, keys =[list(masterdf.columns.values), item]) and then make that into a json.
您甚至可以做一些更性感的事情,例如:
pd.concat([lamda x: x for panel.items], axis = 1, keys = list(panel.keys())).to_json
最后,最快的方法是写一个简单的字符串concat
-er。这是两个最佳解决方案,(一个由@Skorp 提供))及其各自的 %timeit
图形形式的时间
方法一String-Merge
def panel_to_json_string(panel):
def __merge_stream(key, stream):
return '"' + key + '"' + ': ' + stream + ', '
try:
stream = '{ "__type__": "panel", '
for item in panel.items:
stream += __merge_stream(item, panel.loc[item, :, :].to_json())
# take out extra last comma
stream = stream[:-2]
# add the final paren
stream += '}'
except:
logging.exception('Panel Encoding did not work')
return stream
方法二。Loads-Dumps
def panel_to_json_loads(panel):
try:
d = {'__type__' : 'panel'}
for item in panel.items:
d[item] = json.loads(panel.loc[item ,: , :].to_json())
return json.dumps(d)
except:
logging.exception('Panel Encoding did not work')
问题设置
import timeit
import pandas
import numpy
setup = ("import strat_check.io as sio; import pandas; import numpy;"
"panel = pandas.Panel(numpy.random.randn(5, {0}, 4), "
"items = ['a', 'b', 'c', 'd', 'e'], "
"major_axis = pandas.DatetimeIndex(start = '01/01/1990',"
"freq = 's', "
"periods = {0}), "
"minor_axis = numpy.arange(4))")
vals = [10, 100, 1000, 10000, 100000]
d = {'string-merge': [],
'loads-dumps': []
}
for n in vals:
number = 10
d['string-merge'].append(
timeit.timeit(stmt = 'panel_to_json_string(panel)',
setup = setup.format(n),
number = number)
)
d['loads-dumps'].append(
timeit.timeit(stmt = 'sio.panel_to_json_loads(panel)',
setup = setup.format(n),
number = number)
)