Azure Data Lake Storage Gen2 (ADLS Gen2) 作为 Kedro 管道的数据源
Azure Data Lake Storage Gen2 (ADLS Gen2) as a data source for Kedro pipeline
根据 Kedro 的 documentation,Azure Blob 存储是可用的数据源之一。这会扩展到 ADLS Gen2 吗?
还没有尝试过 Kedro,但在我投入一些时间之前,我想确保我可以连接到 ADLS Gen2。
提前致谢!
是的,这适用于 Kedro。您实际上指的是文档的一个非常旧的版本,现在 Kedro 中所有基于文件系统的数据集都在幕后使用 fsspec,这意味着它们可以无缝地与 S3、HDFS、本地和更多文件系统一起工作。
ADLS Gen2 由 ffspec
通过底层 adlfs
库支持,即 documented here。
从 Kedro 的角度来看,您需要做的就是像这样声明您的目录条目:
motorbikes:
type: pandas.CSVDataSet
filepath: abfs://your_bucket/data/02_intermediate/company/motorbikes.csv
credentials: dev_az
我们还有更多示例here,尤其是示例 15。
根据 Kedro 的 documentation,Azure Blob 存储是可用的数据源之一。这会扩展到 ADLS Gen2 吗?
还没有尝试过 Kedro,但在我投入一些时间之前,我想确保我可以连接到 ADLS Gen2。
提前致谢!
是的,这适用于 Kedro。您实际上指的是文档的一个非常旧的版本,现在 Kedro 中所有基于文件系统的数据集都在幕后使用 fsspec,这意味着它们可以无缝地与 S3、HDFS、本地和更多文件系统一起工作。
ADLS Gen2 由 ffspec
通过底层 adlfs
库支持,即 documented here。
从 Kedro 的角度来看,您需要做的就是像这样声明您的目录条目:
motorbikes:
type: pandas.CSVDataSet
filepath: abfs://your_bucket/data/02_intermediate/company/motorbikes.csv
credentials: dev_az
我们还有更多示例here,尤其是示例 15。