如何从键是参考字典子集的嵌套字典创建平面字典?

How can I create a flat dictionary from a nested dictionary whose keys are a subset of a reference dictionary?

我正在创建一个嵌套的参考字典来记录数据字典可能具有的所有可能的键以及相应的值,这些值是要在平面字典中使用的所有键。

数据字典的键始终是参考字典键的子集。平面字典的键始终是参考字典值集的子集。

换句话说,给定一个具有如下分配的参考字典:

reference['agent']['address'] = 'agentaddress'
reference['agent']['zone']['id'] = 'agentzoneid'
reference['eventid'] = 'eventid'
reference['file']['hash'] = 'filehash'
reference['file']['name'] = 'filename'

和一个具有如下分配的数据字典:

nested['agent']['address'] = '172.16.16.16'
nested['eventid'] = '1234566778'
nested['file']['name'] = 'reallybadfile.exe'

代码应该生成一个可以像这样分配的字典:

flat['agentaddress'] = '172.16.16.16'
flat['eventid'] = '1234566778'
flat['filename'] = 'reallybadfile.exe'

我永远不知道嵌套字典中的哪些字段会被填充,哪些不会,但我可以知道参考字典中的映射。

我预计我将需要使用递归将字典遍历到子字典中,并可能需要使用某种间接方式分别从参考字典值和嵌套字典键创建平面字典键和值。

但是,我还不能生成任何有意义的代码。

也许从很高的层次来看,可能是这样的:

def this(ref, nest, flat, *args):
    for (k,v) in reference:
        if type(v) is dict:
            this(?, ?, ?, ?)
        elif nested[path][to][k]:      
            flat[reference[path][to][k]] = nested[path][to][k]

其中 [path][to][k] 代表某种间接方式,而 *args 是我要传递给递归函数的东西,这样我就有办法获得足够的上下文来通过嵌套用于参考我需要的键和值的字典。

使用 generator,这非常简单:

代码:

def make_flat_tuples(data, ref):
    for k, v in data.items():
        if isinstance(v, dict):
            for x in make_flat_tuples(v, ref[k]):
                yield x
        else:
            yield ref[k], v

flat = dict(make_flat_tuples(nested, reference))

测试代码:

from collections import defaultdict

reference = defaultdict(dict)
reference['agent'] = defaultdict(dict)

reference['agent']['address'] = 'agentaddress'
reference['agent']['zone']['id'] = 'agentzoneid'
reference['eventid'] = 'eventid'
reference['file']['hash'] = 'filehash'
reference['file']['name'] = 'filename'

nested = defaultdict(dict)

nested['agent']['address'] = '172.16.16.16'
nested['eventid'] = '1234566778'
nested['file']['name'] = 'reallybadfile.exe'

print(dict(make_flat_tuples(nested, reference)))

结果:

{
    'agentaddress': '172.16.16.16', 
    'eventid': '1234566778', 
    'filename': 'reallybadfile.exe'
}

@StephenRauch 回答很好,如果您不想使用生成器,只需重新格式化如下:

# r=reference, n=nested, f=final
def buildDict(r, n, f):
    for key in n.keys():
        if isinstance(n[key], dict):
            buildDict(r.get(key), n[key], f)
        else:
            if r.get(key):
                f[r.get(key)] = n[key]