pyarrow 数据集按文件名分区,将文件名转换为 field/column 名称
pyarrow dataset partitioning by filenames converting filename to field/column name
有没有办法在数据集中使用文件名并将其作为列。
即如果目录有
file1.parquet
file2.parquet
file3.parquet
可以将其作为数据集加载,然后有一列包含值 file1、file2 和 file3 吗?
还是只对目录名有效?它似乎只适用于目录名称,对吗?
对 filename-based 分区的支持将出现在 Arrow 8.0.0 中,它可能会在本月晚些时候或 2022 年 5 月发布。请参阅 ARROW-14612. The same goes for being able to have a column with the filename, see ARROW-15281。
有没有办法在数据集中使用文件名并将其作为列。
即如果目录有
file1.parquet file2.parquet file3.parquet
可以将其作为数据集加载,然后有一列包含值 file1、file2 和 file3 吗?
还是只对目录名有效?它似乎只适用于目录名称,对吗?
对 filename-based 分区的支持将出现在 Arrow 8.0.0 中,它可能会在本月晚些时候或 2022 年 5 月发布。请参阅 ARROW-14612. The same goes for being able to have a column with the filename, see ARROW-15281。