在 Azure 数据工厂 V2 中使用 spark activity 列出 blob 存储容器中的文件
List files in a blob storage container using spark activity in Azure Data Factory V2
我想知道如何使用 activity 最好是 Azure 数据工厂 V2 中的 pyspark
连接并列出 blob 存储容器中可用的文件
有几种方法可以帮助您:
When you are using HDInsight Hadoop or Spark clusters in Azure, they are automatically pre-configured to access Azure Storage Blobs via the hadoop-azure module that implements the standard Hadoop FilesSystem interface. You can learn more about how HDInsight uses blob storage at https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/
可以在这个博客中找到详细的指南 post:https://blogs.msdn.microsoft.com/arsen/2016/07/13/accessing-azure-storage-blobs-from-spark-1-6-that-is-running-locally/
显示存储 API 与 Spark 集成的另一个来源可以在这张 幻灯片中找到:https://www.slideshare.net/BrajaDas/azure-blob-storage-api-for-scala-and-spark
此 python 脚本允许使用 Azure Datafactory V2 通过 pyspark 脚本 运行 访问 blob。
https://github.com/Azure-Samples/storage-blobs-python-quickstart/blob/master/example.py
但是我不得不使用
from azure.storage.blob import BlobService
而不是建议的
from azure.storage.blob import BlockBlobService
我想知道如何使用 activity 最好是 Azure 数据工厂 V2 中的 pyspark
连接并列出 blob 存储容器中可用的文件有几种方法可以帮助您:
When you are using HDInsight Hadoop or Spark clusters in Azure, they are automatically pre-configured to access Azure Storage Blobs via the hadoop-azure module that implements the standard Hadoop FilesSystem interface. You can learn more about how HDInsight uses blob storage at https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/
可以在这个博客中找到详细的指南 post:https://blogs.msdn.microsoft.com/arsen/2016/07/13/accessing-azure-storage-blobs-from-spark-1-6-that-is-running-locally/
显示存储 API 与 Spark 集成的另一个来源可以在这张 幻灯片中找到:https://www.slideshare.net/BrajaDas/azure-blob-storage-api-for-scala-and-spark
此 python 脚本允许使用 Azure Datafactory V2 通过 pyspark 脚本 运行 访问 blob。
https://github.com/Azure-Samples/storage-blobs-python-quickstart/blob/master/example.py
但是我不得不使用
from azure.storage.blob import BlobService
而不是建议的
from azure.storage.blob import BlockBlobService