在 HDI 中使用 python 运行 访问 blob 存储

Use python running in HDI to access blob storage

我正在编写猪嵌入式 python 脚本,该脚本已在 HDInsights 中运行 运行。

I am attempting to add to the python part a conditional block which checks for a path in blob storage (e.g. wasb://container@account/path) and updates variables based on this check.

似乎标准 os.path.exists 无法访问 blob 存储(或者我使用了错误的文件路径格式)。有人对此有好运吗?

WASB 是一个兼容 HDFS 的文件系统,因此 Hadoop 和 运行 Hadoop 内部的东西(hive、mapreduce 等)知道如何使用它; Python 和其他 OS 没有。

如果您知道用于 HDInsight 群集的默认存储 account/container,您可以使用 https://github.com/Azure/azure-sdk-for-python to check whether the blob exists in the container that way. http://azure.microsoft.com/en-us/documentation/articles/storage-python-how-to-use-blob-storage/ 应该有关于使用它访问 blob 的信息。