我可以展平一个深度嵌套的 Python 字典，它包含带有更多嵌套字典列表的值吗？

Question

我正在处理一个大型 xml 文件，我一直在尝试从中提取键和值。此文件中的信息非常敏感，因此我无法分享。我从使用 xml 库开始。然而，经过几个小时的挫折，我发现了 xmltodict 库。我使用这个库将我的 xml 转换为字典（相对于 xml 我更熟悉的东西）。

import xmltodict

# convert xml to dictionary
dict_nested = xmltodict.parse(str_xml)

现在 xml 是一个字典，我想把它压扁，因为有很多级别（我不知道有多少级别），同时创建帮助我跟踪的键名相应值的路径。因此，我尝试了：

from flatten_dict import flatten

# flatten dict_nested 
dict_flat = flatten(dict_nested)

结果可能看起来像这样，但有更多层：

{'ID': '123',
 'info': [{'breed':'collie'}, 
          {'fur': [{'short':'no'}, 
                   {'color':[{'black':'no'},
                             {'brown':'yes'}]}]}]}

这很有效，因为我的键是显示层路径的元组。我的值是字符串（即我正在寻找的最终结果）或类型 OrderedDict 的列表。

由于每个列表中的每个字典都需要展平，我不知道这有多深，我试图找出一种以编程方式展平所有词典的方法，直到所有键都对应一个值（即，不列表或字典）。

理想情况下，输出应如下所示：

{'ID':'123',
 'info_breed':'collie',
 'info_fur_short':'no',
 'info_fur_color_black':'no',
 'info_fur_color_brown':'yes'}

抱歉，由于信息敏感，我无法分享更多输出内容。

Answer 1

考虑到您的字典值是字符串或包含其他字典的列表，您可以使用递归方法：

dict_flat = {'ID': '123',
 'info': [{'breed':'collie'}, 
          {'fur': [{'short':'no'}, 
                   {'color':[{'black':'no'},
                             {'brown':'yes'}]}]}]}

def my_flatten(dict_flat, key_prefix=None):

    result = {}
    for k, v in dict_flat.items():
        key = f'{key_prefix}_{k}' if key_prefix is not None else k
        if isinstance(v, list):
            for d in v:
                result.update(my_flatten(d, key))
        else:
            result[key] = v
    return result

my_flatten(dict_flat)

输出：

{'ID': '123',
 'info_breed': 'collie',
 'info_fur_short': 'no',
 'info_fur_color_black': 'no',
 'info_fur_color_brown': 'yes'}

Answer 2

另一种方法是创建一个生成 key/value 元组的生成器。您可以简单地将其传递给字典构造函数：

d = {'ID': '123',
     'info': [{'breed':'collie'}, 
          {'fur': [{'short':'no'}, 
               {'color':[{'black':'no'},
                         {'brown':'yes'}]}]}]}

def flatten(obj, prefix=[]):
    if isinstance(obj, str):
        yield ('_'.join(prefix), obj)

    elif isinstance(obj, list):
        for o in obj:
            yield from flatten(o, prefix) 
    else:
        for k, v in obj.items():
            yield from flatten(v, prefix + [k])


dict(flatten(d))

结果：

{'ID': '123',
 'info_breed': 'collie',
 'info_fur_short': 'no',
 'info_fur_color_black': 'no',
 'info_fur_color_brown': 'yes'}

这避免了在函数中管理字典，根据您对事物的喜好，这可能更容易推理。

我可以展平一个深度嵌套的 Python 字典，它包含带有更多嵌套字典列表的值吗？

Can I flatten a deeply nested Python dictionary which contains values with lists of more nested dictionaries?

python

xml

dictionary

ordereddictionary