将 pyarrow 架构分配给 pa.Table.from_pandas()

Question

我的 pandas 数据框中有一个列表列以及 int、string 等列。我能够转换字符串、日期、整数和时间戳列。我想知道如何将 array() 应用于列表列。

fields = [
    pa.field('id', pa.int64()),
    pa.field('secondaryid', pa.int64()),
    pa.field('date', pa.timestamp('ms')),
    pa.field('emails', pa.array())
]

my_schema = pa.schema(fields)

table = pa.Table.from_pandas(sample_df, schema=my_schema, preserve_index=False)

它要求为数组传递一个对象。我想知道如何将字符串类型数组的架构应用于 'emails' 列，请记住我将 table 写成镶木地板格式，因此空数组将导致 SegFault。什么是最好的方法？

Answer 1

您需要提供 pa.list_(pa.string()) 而不是 pa.array。 pa.array 是 pyarrow.Array 实例的构造函数。这是保存任何类型数据的主要对象。与此相反，pa.list_() 是 LIST 类型的构造函数。作为它的单个参数，它需要具有组成列表元素的类型。

在 Arrow 术语中，数组是保存类型化数据的最简单结构。它由许多连续存储的缓冲区组成。主缓冲区始终是一个位图，指示行是有效的还是空的。取决于数组的类型。该数据将有一个缓冲区（例如对于整数）或多个缓冲区用于更复杂的类型。相比之下，术语list用于描述数组中存储的数据类型。 LIST 表示一列中的单个 cell/row 可以包含多个同类值。

将 pyarrow 架构分配给 pa.Table.from_pandas()

Assign pyarrow schema to pa.Table.from_pandas()

python

schema

pandas

parquet

pyarrow