在 Azure 数据工厂 V2 中使用 spark activity 列出 blob 存储容器中的文件

List files in a blob storage container using spark activity in Azure Data Factory V2

我想知道如何使用 activity 最好是 Azure 数据工厂 V2 中的 pyspark

连接并列出 blob 存储容器中可用的文件


When you are using HDInsight Hadoop or Spark clusters in Azure, they are automatically pre-configured to access Azure Storage Blobs via the hadoop-azure module that implements the standard Hadoop FilesSystem interface. You can learn more about how HDInsight uses blob storage at https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/

可以在这个博客中找到详细的指南 post:https://blogs.msdn.microsoft.com/arsen/2016/07/13/accessing-azure-storage-blobs-from-spark-1-6-that-is-running-locally/

显示存储 API 与 Spark 集成的另一个来源可以在这张 幻灯片中找到:https://www.slideshare.net/BrajaDas/azure-blob-storage-api-for-scala-and-spark

此 python 脚本允许使用 Azure Datafactory V2 通过 pyspark 脚本 运行 访问 blob。



from azure.storage.blob import BlobService


from azure.storage.blob import BlockBlobService