我可以展平一个深度嵌套的 Python 字典,它包含带有更多嵌套字典列表的值吗?
Can I flatten a deeply nested Python dictionary which contains values with lists of more nested dictionaries?
我正在处理一个大型 xml 文件,我一直在尝试从中提取键和值。此文件中的信息非常敏感,因此我无法分享。我从使用 xml
库开始。然而,经过几个小时的挫折,我发现了 xmltodict
库。我使用这个库将我的 xml 转换为字典(相对于 xml 我更熟悉的东西)。
import xmltodict
# convert xml to dictionary
dict_nested = xmltodict.parse(str_xml)
现在 xml 是一个字典,我想把它压扁,因为有很多级别(我不知道有多少级别),同时创建帮助我跟踪的键名相应值的路径。因此,我尝试了:
from flatten_dict import flatten
# flatten dict_nested
dict_flat = flatten(dict_nested)
结果可能看起来像这样,但有更多层:
{'ID': '123',
'info': [{'breed':'collie'},
{'fur': [{'short':'no'},
{'color':[{'black':'no'},
{'brown':'yes'}]}]}]}
这很有效,因为我的键是显示层路径的元组。我的值是字符串(即我正在寻找的最终结果)或类型 OrderedDict 的列表。
由于每个列表中的每个字典都需要展平,我不知道这有多深,我试图找出一种以编程方式展平所有词典的方法,直到所有键都对应一个值(即,不列表或字典)。
理想情况下,输出应如下所示:
{'ID':'123',
'info_breed':'collie',
'info_fur_short':'no',
'info_fur_color_black':'no',
'info_fur_color_brown':'yes'}
抱歉,由于信息敏感,我无法分享更多输出内容。
考虑到您的字典值是字符串或包含其他字典的列表,您可以使用递归方法:
dict_flat = {'ID': '123',
'info': [{'breed':'collie'},
{'fur': [{'short':'no'},
{'color':[{'black':'no'},
{'brown':'yes'}]}]}]}
def my_flatten(dict_flat, key_prefix=None):
result = {}
for k, v in dict_flat.items():
key = f'{key_prefix}_{k}' if key_prefix is not None else k
if isinstance(v, list):
for d in v:
result.update(my_flatten(d, key))
else:
result[key] = v
return result
my_flatten(dict_flat)
输出:
{'ID': '123',
'info_breed': 'collie',
'info_fur_short': 'no',
'info_fur_color_black': 'no',
'info_fur_color_brown': 'yes'}
另一种方法是创建一个生成 key/value 元组的生成器。您可以简单地将其传递给字典构造函数:
d = {'ID': '123',
'info': [{'breed':'collie'},
{'fur': [{'short':'no'},
{'color':[{'black':'no'},
{'brown':'yes'}]}]}]}
def flatten(obj, prefix=[]):
if isinstance(obj, str):
yield ('_'.join(prefix), obj)
elif isinstance(obj, list):
for o in obj:
yield from flatten(o, prefix)
else:
for k, v in obj.items():
yield from flatten(v, prefix + [k])
dict(flatten(d))
结果:
{'ID': '123',
'info_breed': 'collie',
'info_fur_short': 'no',
'info_fur_color_black': 'no',
'info_fur_color_brown': 'yes'}
这避免了在函数中管理字典,根据您对事物的喜好,这可能更容易推理。
我正在处理一个大型 xml 文件,我一直在尝试从中提取键和值。此文件中的信息非常敏感,因此我无法分享。我从使用 xml
库开始。然而,经过几个小时的挫折,我发现了 xmltodict
库。我使用这个库将我的 xml 转换为字典(相对于 xml 我更熟悉的东西)。
import xmltodict
# convert xml to dictionary
dict_nested = xmltodict.parse(str_xml)
现在 xml 是一个字典,我想把它压扁,因为有很多级别(我不知道有多少级别),同时创建帮助我跟踪的键名相应值的路径。因此,我尝试了:
from flatten_dict import flatten
# flatten dict_nested
dict_flat = flatten(dict_nested)
结果可能看起来像这样,但有更多层:
{'ID': '123',
'info': [{'breed':'collie'},
{'fur': [{'short':'no'},
{'color':[{'black':'no'},
{'brown':'yes'}]}]}]}
这很有效,因为我的键是显示层路径的元组。我的值是字符串(即我正在寻找的最终结果)或类型 OrderedDict 的列表。
由于每个列表中的每个字典都需要展平,我不知道这有多深,我试图找出一种以编程方式展平所有词典的方法,直到所有键都对应一个值(即,不列表或字典)。
理想情况下,输出应如下所示:
{'ID':'123',
'info_breed':'collie',
'info_fur_short':'no',
'info_fur_color_black':'no',
'info_fur_color_brown':'yes'}
抱歉,由于信息敏感,我无法分享更多输出内容。
考虑到您的字典值是字符串或包含其他字典的列表,您可以使用递归方法:
dict_flat = {'ID': '123',
'info': [{'breed':'collie'},
{'fur': [{'short':'no'},
{'color':[{'black':'no'},
{'brown':'yes'}]}]}]}
def my_flatten(dict_flat, key_prefix=None):
result = {}
for k, v in dict_flat.items():
key = f'{key_prefix}_{k}' if key_prefix is not None else k
if isinstance(v, list):
for d in v:
result.update(my_flatten(d, key))
else:
result[key] = v
return result
my_flatten(dict_flat)
输出:
{'ID': '123',
'info_breed': 'collie',
'info_fur_short': 'no',
'info_fur_color_black': 'no',
'info_fur_color_brown': 'yes'}
另一种方法是创建一个生成 key/value 元组的生成器。您可以简单地将其传递给字典构造函数:
d = {'ID': '123',
'info': [{'breed':'collie'},
{'fur': [{'short':'no'},
{'color':[{'black':'no'},
{'brown':'yes'}]}]}]}
def flatten(obj, prefix=[]):
if isinstance(obj, str):
yield ('_'.join(prefix), obj)
elif isinstance(obj, list):
for o in obj:
yield from flatten(o, prefix)
else:
for k, v in obj.items():
yield from flatten(v, prefix + [k])
dict(flatten(d))
结果:
{'ID': '123',
'info_breed': 'collie',
'info_fur_short': 'no',
'info_fur_color_black': 'no',
'info_fur_color_brown': 'yes'}
这避免了在函数中管理字典,根据您对事物的喜好,这可能更容易推理。