如何在 Kedro 的目录中添加多个 CSV 文件?
How do I add many CSV files to the catalog in Kedro?
我有数百个 CSV 文件要进行类似处理。为简单起见,我们可以假设它们都在 ./data/01_raw/
中(如 ./data/01_raw/1.csv
、./data/02_raw/2.csv
)等。我宁愿不给每个文件一个不同的名称并单独跟踪它们建立我的管道。我想知道是否有任何方法可以通过在 catalog.yml
文件中指定某些内容来批量读取所有这些内容?
您正在寻找 PartitionedDataSet。在您的示例中,catalog.yml
可能如下所示:
my_partitioned_dataset:
type: "PartitionedDataSet"
path: "data/01_raw"
dataset: "pandas.CSVDataSet"
我有数百个 CSV 文件要进行类似处理。为简单起见,我们可以假设它们都在 ./data/01_raw/
中(如 ./data/01_raw/1.csv
、./data/02_raw/2.csv
)等。我宁愿不给每个文件一个不同的名称并单独跟踪它们建立我的管道。我想知道是否有任何方法可以通过在 catalog.yml
文件中指定某些内容来批量读取所有这些内容?
您正在寻找 PartitionedDataSet。在您的示例中,catalog.yml
可能如下所示:
my_partitioned_dataset:
type: "PartitionedDataSet"
path: "data/01_raw"
dataset: "pandas.CSVDataSet"