使用 python & glom 解析深度嵌套的字典
Parsing deeply nested dictionary with python & glom
我有一个深度嵌套的数据,以字典的形式呈现,其中混合了列表和字典(例如字典 -> 字典列表 -> 字典 -> 字典列表)。
我想用 glom 解析它的值(希望是 pandas-dataframeable),但在 glom 的规范中混合字典和列表时遇到困难。
我可以像这样链接字典键和索引列表来访问每个单独的值:
dict['TradePlaceList'][0]['TradeList'][0]['Trade']['Message']['soap:Envelope']['soap:Body']['SetBiddingProcessInfo']
但在 glom 规范中表达相同逻辑时需要帮助。
数据示例(因大小而减少):
{'TradePlaceList': [OrderedDict([('@INN', '6164265896'),
('TradeList',
[OrderedDict([('Trade',
OrderedDict([('@ID_EFRSB', '1201661'),
('@ID_EXTERNAL', 'ПП-49739'),
('Message',
OrderedDict([('@ID', '10958517'),
('soap:Envelope',
OrderedDict([('@xmlns:xsi',
'http://www.w3.org/2001/XMLSchema-instance'),
('@xmlns:xsd',
'http://www.w3.org/2001/XMLSchema'),
('@xmlns:soap',
'http://schemas.xmlsoap.org/soap/envelope/'),
('soap:Body',
OrderedDict([('SetBiddingProcessInfo',
OrderedDict([('@xmlns',
'https://services.fedresurs.ru/BiddingService2'),
('BiddingProcessInfo',
OrderedDict([('@TradeId',
'ПП-49739'),
('@EventTime',
'2021-05-03T00:00:00'),
('PriceInfo',
OrderedDict([('@LotNumber',
'1'),
('@NewPrice',
'3049997.96')]))]))]))]))]))]))]))]),
以下 glom 规范适用于您发布的示例:
import pandas as pd
import glom
from collections import OrderedDict
data = {'TradePlaceList': [OrderedDict([('@INN', '6164265896'),
('TradeList',
[OrderedDict([('Trade',
OrderedDict([('@ID_EFRSB', '1201661'),
('@ID_EXTERNAL', 'ПП-49739'),
('Message',
OrderedDict([('@ID', '10958517'),
('soap:Envelope',
OrderedDict([('@xmlns:xsi',
'http://www.w3.org/2001/XMLSchema-instance'),
('@xmlns:xsd',
'http://www.w3.org/2001/XMLSchema'),
('@xmlns:soap',
'http://schemas.xmlsoap.org/soap/envelope/'),
('soap:Body',
OrderedDict([('SetBiddingProcessInfo',
OrderedDict([('@xmlns',
'https://services.fedresurs.ru/BiddingService2'),
('BiddingProcessInfo',
OrderedDict([('@TradeId',
'ПП-49739'),
('@EventTime',
'2021-05-03T00:00:00'),
('PriceInfo',
OrderedDict([('@LotNumber',
'1'),
('@NewPrice',
'3049997.96')]))]))]))]))]))]))]))])])])]}
print(glom.glom(data, ('TradePlaceList', ['TradeList', ['Trade.Message.soap:Envelope.soap:Body.SetBiddingProcessInfo']])))
这是使用您发布的路径,加上在 glom 中使用 []
遍历列表。
我有一个深度嵌套的数据,以字典的形式呈现,其中混合了列表和字典(例如字典 -> 字典列表 -> 字典 -> 字典列表)。
我想用 glom 解析它的值(希望是 pandas-dataframeable),但在 glom 的规范中混合字典和列表时遇到困难。
我可以像这样链接字典键和索引列表来访问每个单独的值:
dict['TradePlaceList'][0]['TradeList'][0]['Trade']['Message']['soap:Envelope']['soap:Body']['SetBiddingProcessInfo']
但在 glom 规范中表达相同逻辑时需要帮助。
数据示例(因大小而减少):
{'TradePlaceList': [OrderedDict([('@INN', '6164265896'),
('TradeList',
[OrderedDict([('Trade',
OrderedDict([('@ID_EFRSB', '1201661'),
('@ID_EXTERNAL', 'ПП-49739'),
('Message',
OrderedDict([('@ID', '10958517'),
('soap:Envelope',
OrderedDict([('@xmlns:xsi',
'http://www.w3.org/2001/XMLSchema-instance'),
('@xmlns:xsd',
'http://www.w3.org/2001/XMLSchema'),
('@xmlns:soap',
'http://schemas.xmlsoap.org/soap/envelope/'),
('soap:Body',
OrderedDict([('SetBiddingProcessInfo',
OrderedDict([('@xmlns',
'https://services.fedresurs.ru/BiddingService2'),
('BiddingProcessInfo',
OrderedDict([('@TradeId',
'ПП-49739'),
('@EventTime',
'2021-05-03T00:00:00'),
('PriceInfo',
OrderedDict([('@LotNumber',
'1'),
('@NewPrice',
'3049997.96')]))]))]))]))]))]))]))]),
以下 glom 规范适用于您发布的示例:
import pandas as pd
import glom
from collections import OrderedDict
data = {'TradePlaceList': [OrderedDict([('@INN', '6164265896'),
('TradeList',
[OrderedDict([('Trade',
OrderedDict([('@ID_EFRSB', '1201661'),
('@ID_EXTERNAL', 'ПП-49739'),
('Message',
OrderedDict([('@ID', '10958517'),
('soap:Envelope',
OrderedDict([('@xmlns:xsi',
'http://www.w3.org/2001/XMLSchema-instance'),
('@xmlns:xsd',
'http://www.w3.org/2001/XMLSchema'),
('@xmlns:soap',
'http://schemas.xmlsoap.org/soap/envelope/'),
('soap:Body',
OrderedDict([('SetBiddingProcessInfo',
OrderedDict([('@xmlns',
'https://services.fedresurs.ru/BiddingService2'),
('BiddingProcessInfo',
OrderedDict([('@TradeId',
'ПП-49739'),
('@EventTime',
'2021-05-03T00:00:00'),
('PriceInfo',
OrderedDict([('@LotNumber',
'1'),
('@NewPrice',
'3049997.96')]))]))]))]))]))]))]))])])])]}
print(glom.glom(data, ('TradePlaceList', ['TradeList', ['Trade.Message.soap:Envelope.soap:Body.SetBiddingProcessInfo']])))
这是使用您发布的路径,加上在 glom 中使用 []
遍历列表。