获取 Azure Blob 存储的最佳方式是什么

what is the best way to get azure blob storage

我正在使用 scala 和 spark,需要访问 azure blob 存储并获取其文件列表。知道 spark 版本是 2.11 的最佳方法是什么。

  1. 对于本地的 Spark 运行,有一个关于 HDInsight 配置的官方 blog which introduces how to access Azure Blob Storage from Spark. The key is that you need to configure Azure Storage account as HDFS-compatible storage in core-site.xml file and add two jars hadoop-azure & azure-storage to your classpath for accessing HDFS via the protocol wasb[s]. You can refer to the official tutorial to know HDFS-compatible storage with wasb, and the blog 更多详细信息。
  2. 对于Azure上的Spark 运行,不同的只是只能通过wasb访问HDFS,其他准备工作由Azure完成 使用 Spark 创建 HDInsight 集群。列出文件的方法 是 listFiles or wholeTextFiles 的 SparkContext