pyarrow 数据集按文件名分区,将文件名转换为 field/column 名称

pyarrow dataset partitioning by filenames converting filename to field/column name

有没有办法在数据集中使用文件名并将其作为列。

即如果目录有

file1.parquet file2.parquet file3.parquet

可以将其作为数据集加载,然后有一列包含值 file1、file2 和 file3 吗?

还是只对目录名有效?它似乎只适用于目录名称,对吗?

对 filename-based 分区的支持将出现在 Arrow 8.0.0 中,它可能会在本月晚些时候或 2022 年 5 月发布。请参阅 ARROW-14612. The same goes for being able to have a column with the filename, see ARROW-15281