合并复杂的嵌套字典列表

merge complex list of nested dicts

我正在尝试将嵌套的字典合并到一个基于 "name" 的列表中,如下所示:

[
  {
    "name": "abc",
    "metadata": [
        {
            "name": "foo",
            "data": [
                {
                    "version": "1.0"
                }
            ]
        },
        {
            "name": "foo",
            "data": [
                {
                    "version": "2.0"
                }
            ]
        },
        {
            "name": "bar",
            "data": [
                {
                    "version": "1.0"
                }
            ]
        }
    ]
},
{
    "name": "xyz",
    "metadata": [
        {
            "name": "bob",
            "data": [
                {
                    "version": "3.2"
                }
            ]
        },
        {
            "name": "alice",
            "data": [
                {
                    "version": "2.2"
                }
            ]
        }
    ]
},
{
    "name": "xyz",
    "metadata": [
        {
            "name": "mike",
            "data": [
                {
                    "version": "3.2"
                }
            ]
        },
        {
            "name": "alice",
            "data": [
                {
                    "version": "2.2"
                }
            ]
        }
      ]
  }
]

考虑到合并的项目在元数据中不应该有重复项,我该如何在 Python 中做到这一点?元数据条目应该是唯一的,如果元数据中存在名称+数据+版本,则不应合并该项目。

我想要的输出应该是这样的

[
  {
    "name": "abc",
    "metadata": [
        {
            "name": "foo",
            "data": [
                {
                    "version": "1.0"
                }
            ]
        },
        {
            "name": "foo",
            "data": [
                {
                    "version": "2.0"
                }
            ]
        },
        {
            "name": "bar",
            "data": [
                {
                    "version": "1.0"
                }
            ]
        }
    ]
},
{
    "name": "xyz",
    "metadata": [
        {
            "name": "bob",
            "data": [
                {
                    "version": "3.2"
                }
            ]
        },
        {
            "name": "mike",
            "data": [
                {
                    "version": "3.2"
                }
            ]
        },
        {
            "name": "alice",
            "data": [
                {
                    "version": "2.2"
                }
            ]
        }
    ]
   }
]

您可以使用 itertools.groubpy:

import itertools
d = [{'name': 'abc', 'metadata': [{'name': 'foo', 'data': [{'version': '1.0'}]}, {'name': 'foo', 'data': [{'version': '2.0'}]}, {'name': 'bar', 'data': [{'version': '1.0'}]}]}, {'name': 'xyz', 'metadata': [{'name': 'bob', 'data': [{'version': '3.2'}]}, {'name': 'alice', 'data': [{'version': '2.2'}]}]}, {'name': 'xyz', 'metadata': [{'name': 'mike', 'data': [{'version': '3.2'}]}, {'name': 'alice', 'data': [{'version': '2.2'}]}]}]
new_d = [[a, list(b)] for a, b in itertools.groupby(sorted(d, key=lambda x:x['name']), key=lambda x:x['name'])]
result = [{'name':a, 'metadata':[c for j in b for c in j['metadata']]} for a, b in new_d]
final_result = [{**i, 'metadata':[c for d, c in enumerate(i['metadata']) if all(a != c for a in i['metadata'][:d])]} for i in result]

import json
print(json.dumps(final_result, indent=4))

输出:

[
  {
    "name": "abc",
    "metadata": [
        {
            "name": "foo",
            "data": [
                {
                    "version": "1.0"
                }
            ]
        },
        {
            "name": "foo",
            "data": [
                {
                    "version": "2.0"
                }
            ]
        },
        {
            "name": "bar",
            "data": [
                {
                    "version": "1.0"
                }
            ]
        }
    ]
},
{
    "name": "xyz",
    "metadata": [
        {
            "name": "bob",
            "data": [
                {
                    "version": "3.2"
                }
            ]
        },
        {
            "name": "alice",
            "data": [
                {
                    "version": "2.2"
                }
            ]
        },
        {
            "name": "mike",
            "data": [
                {
                    "version": "3.2"
                }
            ]
         }
      ]
   }
]