Azure Data Lake Storage Gen2 (ADLS Gen2) 作为 Kedro 管道的数据源

Azure Data Lake Storage Gen2 (ADLS Gen2) as a data source for Kedro pipeline

根据 Kedro 的 documentation,Azure Blob 存储是可用的数据源之一。这会扩展到 ADLS Gen2 吗?

还没有尝试过 Kedro,但在我投入一些时间之前,我想确保我可以连接到 ADLS Gen2。

提前致谢!

是的,这适用于 Kedro。您实际上指的是文档的一个非常旧的版本,现在 Kedro 中所有基于文件系统的数据集都在幕后使用 fsspec,这意味着它们可以无缝地与 S3、HDFS、本地和更多文件系统一起工作。

ADLS Gen2 由 ffspec 通过底层 adlfs 库支持,即 documented here

从 Kedro 的角度来看,您需要做的就是像这样声明您的目录条目:

 motorbikes:
     type: pandas.CSVDataSet
     filepath: abfs://your_bucket/data/02_intermediate/company/motorbikes.csv
     credentials: dev_az

我们还有更多示例here,尤其是示例 15。