具有字典列表的列的 pyarrow 数据类型?
pyarrow data types for columns that have lists of dictionaries?
当我保存到 parquet 文件时,是否应该为包含字典列表的列使用特殊的 pyarrow 数据类型?
如果我将列表或字典列表保存为字符串,我通常必须 .apply(eval)
如果我再次将字段读入内存以便 pandas 将数据识别为列表(所以我可以用 pd.json_normalize
对其进行标准化)
column_a:
[
{"id": "something", "value": "else"},
{"id": "something2", "value": "else2"},
]
column_b:
["test", "test2", "test3"]
只是想知道我是否应该将此数据保存为字符串以外的其他内容。
编辑 - 从 Zendesk 粘贴一些原始 JSON 的片段。 audits 字段有一个名为 events 的字段,它是一个字典列表。在那里面,也可以有其他词典列表(附件,里面有一个名为缩略图)[=16=的词典列表]
你能用pa.map_来处理这样的情况吗?有时我需要从这些嵌套字段中检索数据,这些嵌套字段最初我什至不知道它们是否存在。在我当前的镶木地板数据集中,events 字段只是一列
(字符串类型)即使其中有许多嵌套字段。
udt = pa.map_(pa.string(), pa.string())
.
"audit": {
"id": ,
"ticket_id": ,
"created_at": "",
"author_id": ,
"events": [
{
"id": ,
"type": "",
"author_id": ,
"body": "" ,
"plain_body": "",
"public": false,
"attachments": [
{
"url": "",
"id": ,
"file_name": "",
"content_url": "",
"content_type": "image/png",
"size": 2888,
"width": 100,
"height": 30,
"inline": false,
"deleted": false,
"thumbnails": [
{
"url": "",
"id": ,
"file_name": "",
"content_url": "",
"mapped_content_url": "",
"content_type": "image/png",
"size": 2075,
"width": 80,
"height": 24,
"inline": false,
"deleted": false
}
]
},
假设您有一个带有“字典”和字符串列的 df,并且所有字典都具有相同的键(在您的情况下为 id、值):
df = pd.DataFrame({
'col1': pd.Series([
{"id": "something", "value": "else"},
{"id": "something2", "value": "else2"}
]),
'col2': pd.Series(['foo', 'bar'])
}
)
udt = pa.struct([pa.field('id', pa.string()), pa.field('value', pa.string())])
schema = pa.schema([pa.field('col1', udt), pa.field('col2', pa.string())])
table = pa.Table.from_pandas(df, schema)
df = table.to_pandas()
如果你的字典没有相同的键或者你事先不知道字典的键,你可以这样做:
df = pd.DataFrame({
'col1': pd.Series([
[('id', 'something'), ('value', '"else')],
[('id', 'something2'), ('value','else2')],
]),
'col2': pd.Series(['foo', 'bar'])
}
)
udt = pa.map_(pa.string(), pa.string())
schema = pa.schema([pa.field('col1', udt), pa.field('col2', pa.string())])
table = pa.Table.from_pandas(df, schema)
请注意,col1 的格式不同(它使用的是成对列表而不是字典)。
此外,您无法将 table 转换回 pandas,因为它不受支持(尚):
table.to_pandas()
>>> ArrowNotImplementedError: No known equivalent Pandas block for Arrow data of type map<string, string> is known.
当我保存到 parquet 文件时,是否应该为包含字典列表的列使用特殊的 pyarrow 数据类型?
如果我将列表或字典列表保存为字符串,我通常必须 .apply(eval)
如果我再次将字段读入内存以便 pandas 将数据识别为列表(所以我可以用 pd.json_normalize
对其进行标准化)
column_a:
[
{"id": "something", "value": "else"},
{"id": "something2", "value": "else2"},
]
column_b:
["test", "test2", "test3"]
只是想知道我是否应该将此数据保存为字符串以外的其他内容。
编辑 - 从 Zendesk 粘贴一些原始 JSON 的片段。 audits 字段有一个名为 events 的字段,它是一个字典列表。在那里面,也可以有其他词典列表(附件,里面有一个名为缩略图)[=16=的词典列表]
你能用pa.map_来处理这样的情况吗?有时我需要从这些嵌套字段中检索数据,这些嵌套字段最初我什至不知道它们是否存在。在我当前的镶木地板数据集中,events 字段只是一列 (字符串类型)即使其中有许多嵌套字段。
udt = pa.map_(pa.string(), pa.string())
.
"audit": {
"id": ,
"ticket_id": ,
"created_at": "",
"author_id": ,
"events": [
{
"id": ,
"type": "",
"author_id": ,
"body": "" ,
"plain_body": "",
"public": false,
"attachments": [
{
"url": "",
"id": ,
"file_name": "",
"content_url": "",
"content_type": "image/png",
"size": 2888,
"width": 100,
"height": 30,
"inline": false,
"deleted": false,
"thumbnails": [
{
"url": "",
"id": ,
"file_name": "",
"content_url": "",
"mapped_content_url": "",
"content_type": "image/png",
"size": 2075,
"width": 80,
"height": 24,
"inline": false,
"deleted": false
}
]
},
假设您有一个带有“字典”和字符串列的 df,并且所有字典都具有相同的键(在您的情况下为 id、值):
df = pd.DataFrame({
'col1': pd.Series([
{"id": "something", "value": "else"},
{"id": "something2", "value": "else2"}
]),
'col2': pd.Series(['foo', 'bar'])
}
)
udt = pa.struct([pa.field('id', pa.string()), pa.field('value', pa.string())])
schema = pa.schema([pa.field('col1', udt), pa.field('col2', pa.string())])
table = pa.Table.from_pandas(df, schema)
df = table.to_pandas()
如果你的字典没有相同的键或者你事先不知道字典的键,你可以这样做:
df = pd.DataFrame({
'col1': pd.Series([
[('id', 'something'), ('value', '"else')],
[('id', 'something2'), ('value','else2')],
]),
'col2': pd.Series(['foo', 'bar'])
}
)
udt = pa.map_(pa.string(), pa.string())
schema = pa.schema([pa.field('col1', udt), pa.field('col2', pa.string())])
table = pa.Table.from_pandas(df, schema)
请注意,col1 的格式不同(它使用的是成对列表而不是字典)。 此外,您无法将 table 转换回 pandas,因为它不受支持(尚):
table.to_pandas()
>>> ArrowNotImplementedError: No known equivalent Pandas block for Arrow data of type map<string, string> is known.