使用 json_normalize 展平列表中的双重嵌套字典
flatten doubly nested dictionary inside list using json_normalize
response[0]={'@type': 'g:Vertex',
'@value': {'id': 'account-2199023262994',
'label': 'Account',
'properties': {'account_number': [{'@type': 'g:VertexProperty',
'@value': {'id': {'@type': 'g:Int32',
'@value': 544016139},
'value': '0002-1990-2326-2994',
'label': 'account_number'}}],
'last_name': [{'@type': 'g:VertexProperty',
'@value': {'id': {'@type': 'g:Int32',
'@value': -1616372909},
'value': 'Law-Yone',
'label': 'last_name'}}],
'first_name': [{'@type': 'g:VertexProperty',
'@value': {'id': {'@type': 'g:Int32',
'@value': -451458550},
'value': 'Eric',
'label': 'first_name'}}]}}}
我在列表中有一个嵌套字典,它是另一个嵌套字典的一部分。上面的整个代码片段本身就是列表 response
.
的一个元素
我尝试使用以下方法将其展平:
pd.json_normalize(response, meta = ['@type', ['@value', 'id'], ['@value', 'label'], ['@value', 'properties']])
以上代码的输出是:
我也希望将字典的内部列表展平。
有人可以帮我吗?我需要遍历数据框还是有任何方法可以直接使用?
编辑:
预期输出如下
您可以使用递归生成器函数逐行获取完整的扁平化结果,然后使用 collections.defaultdict
根据帐户 ID 对行进行分组。从那里,您可以获取所需的键来构建您的最终 pd.DataFrame
:
import pandas as pd, collections
data = {'@type': 'g:Vertex', '@value': {'id': 'account-2199023262994', 'label': 'Account', 'properties': {'account_number': [{'@type': 'g:VertexProperty', '@value': {'id': {'@type': 'g:Int32', '@value': 544016139}, 'value': '0002-1990-2326-2994', 'label': 'account_number'}}], 'last_name': [{'@type': 'g:VertexProperty', '@value': {'id': {'@type': 'g:Int32', '@value': -1616372909}, 'value': 'Law-Yone', 'label': 'last_name'}}], 'first_name': [{'@type': 'g:VertexProperty', '@value': {'id': {'@type': 'g:Int32', '@value': -451458550}, 'value': 'Eric', 'label': 'first_name'}}]}}}
def flatten(d, c = [], p = []):
t, f = [], []
for a, b in d.items():
(t if not isinstance(b, (dict, list)) else f).append((p+[a], b))
if not f:
yield {'.'.join(a):b for a, b in (c+t)}
else:
for a, b in f:
if isinstance(b, dict):
yield from flatten(b, c=c+t, p = a)
else:
for i in b:
yield from flatten(i, c=c+t, p = a)
d = collections.defaultdict(dict)
for i in flatten(data):
d[i['@value.id']].update(i)
kv = [['@type', '@type'], ['@value.id', '@value.id'], ['@value.label', '@value.label'], ['@value.properties.account_number.@value.id.@value', 'account_number.id'], ['@value.properties.account_number.@value.value', 'account_number.value'], ['@value.properties.last_name.@value.id.@value', 'last_name.id'], ['@value.properties.last_name.@value.value', 'last_name.value'], ['@value.properties.first_name.@value.id.@value', 'first_name.id'], ['@value.properties.first_name.@value.value', 'first_name.value']]
df = pd.DataFrame([{j:b[k] for k, j in kv} for b in d.values()])
输出:
@type @value.id @value.label ... last_name.value first_name.id first_name.value
0 g:Vertex account-2199023262994 Account ... Law-Yone -451458550 Eric
[1 rows x 9 columns]
response[0]={'@type': 'g:Vertex',
'@value': {'id': 'account-2199023262994',
'label': 'Account',
'properties': {'account_number': [{'@type': 'g:VertexProperty',
'@value': {'id': {'@type': 'g:Int32',
'@value': 544016139},
'value': '0002-1990-2326-2994',
'label': 'account_number'}}],
'last_name': [{'@type': 'g:VertexProperty',
'@value': {'id': {'@type': 'g:Int32',
'@value': -1616372909},
'value': 'Law-Yone',
'label': 'last_name'}}],
'first_name': [{'@type': 'g:VertexProperty',
'@value': {'id': {'@type': 'g:Int32',
'@value': -451458550},
'value': 'Eric',
'label': 'first_name'}}]}}}
我在列表中有一个嵌套字典,它是另一个嵌套字典的一部分。上面的整个代码片段本身就是列表 response
.
我尝试使用以下方法将其展平:
pd.json_normalize(response, meta = ['@type', ['@value', 'id'], ['@value', 'label'], ['@value', 'properties']])
以上代码的输出是:
我也希望将字典的内部列表展平。
有人可以帮我吗?我需要遍历数据框还是有任何方法可以直接使用?
编辑:
预期输出如下
您可以使用递归生成器函数逐行获取完整的扁平化结果,然后使用 collections.defaultdict
根据帐户 ID 对行进行分组。从那里,您可以获取所需的键来构建您的最终 pd.DataFrame
:
import pandas as pd, collections
data = {'@type': 'g:Vertex', '@value': {'id': 'account-2199023262994', 'label': 'Account', 'properties': {'account_number': [{'@type': 'g:VertexProperty', '@value': {'id': {'@type': 'g:Int32', '@value': 544016139}, 'value': '0002-1990-2326-2994', 'label': 'account_number'}}], 'last_name': [{'@type': 'g:VertexProperty', '@value': {'id': {'@type': 'g:Int32', '@value': -1616372909}, 'value': 'Law-Yone', 'label': 'last_name'}}], 'first_name': [{'@type': 'g:VertexProperty', '@value': {'id': {'@type': 'g:Int32', '@value': -451458550}, 'value': 'Eric', 'label': 'first_name'}}]}}}
def flatten(d, c = [], p = []):
t, f = [], []
for a, b in d.items():
(t if not isinstance(b, (dict, list)) else f).append((p+[a], b))
if not f:
yield {'.'.join(a):b for a, b in (c+t)}
else:
for a, b in f:
if isinstance(b, dict):
yield from flatten(b, c=c+t, p = a)
else:
for i in b:
yield from flatten(i, c=c+t, p = a)
d = collections.defaultdict(dict)
for i in flatten(data):
d[i['@value.id']].update(i)
kv = [['@type', '@type'], ['@value.id', '@value.id'], ['@value.label', '@value.label'], ['@value.properties.account_number.@value.id.@value', 'account_number.id'], ['@value.properties.account_number.@value.value', 'account_number.value'], ['@value.properties.last_name.@value.id.@value', 'last_name.id'], ['@value.properties.last_name.@value.value', 'last_name.value'], ['@value.properties.first_name.@value.id.@value', 'first_name.id'], ['@value.properties.first_name.@value.value', 'first_name.value']]
df = pd.DataFrame([{j:b[k] for k, j in kv} for b in d.values()])
输出:
@type @value.id @value.label ... last_name.value first_name.id first_name.value
0 g:Vertex account-2199023262994 Account ... Law-Yone -451458550 Eric
[1 rows x 9 columns]