有没有一种方法可以在 Apache Arrow 镶木地板文件中指定分区，而无需在文件路径中使用配置单元样式“=”？

Question

我正在开展一个项目，我需要使用 Apache Arrow 创建和分析 parquet 文件。我正在使用的环境不允许在文件路径中使用“=”，这是配置单元命名约定强制执行的，例如“年=2007”。有没有一种方法可以使用 Arrow 创建分区的 parquet 文件而不使用 hive 样式的文件命名约定？

Answer 1

目前 Arrow 支持“配置单元”和“目录”方案。正如您所提到的，配置单元方案是 column_name=value。目前无法将 = 字符更改为不同的分隔符，但如果您想制作一个，这听起来像是一张不错的 JIRA 票。

目录方案将只对值进行编码，不需要使用 =，因此这可能适合您。这是一个略有不同的方案，因为它不将列名存储为目录名的一部分。因此，您需要在读回数据时提供该列名称。

我不确定您使用的是 pyarrow 还是 C++-arrow。在 pyarrow 中，讨论了目录方案 here. There is also a pyarrow example 使用食谱中的目录方案编写数据集。

import pyarrow as pa
import pyarrow.dataset as ds
import numpy.random

data = pa.table({"day": numpy.random.randint(1, 31, size=100),
                 "month": numpy.random.randint(1, 12, size=100),
                 "year": [2000 + x // 10 for x in range(100)]})
# The directory scheme is the default if no flavor is specified
partitioning=ds.partitioning(pa.schema([("year", pa.int16())]))
ds.write_dataset(data, "./partitioned", format="parquet", partitioning=partitioning)

这将生成如下文件：

./partitioned/2000/part-0.parquet
./partitioned/2001/part-1.parquet
./partitioned/2002/part-2.parquet
./partitioned/2003/part-3.parquet
./partitioned/2004/part-4.parquet
./partitioned/2005/part-6.parquet
./partitioned/2006/part-5.parquet
./partitioned/2007/part-7.parquet
./partitioned/2008/part-8.parquet
./partitioned/2009/part-9.parquet

有没有一种方法可以在 Apache Arrow 镶木地板文件中指定分区，而无需在文件路径中使用配置单元样式“=”？

Is there a way to specify partitioning in Apache Arrow parquet files without using the hive-style "=" in the file paths?

hive

apache-arrow