如何获取 Azure 容器文件夹的正确路径?

How do I get the correct path to a folder of an Azure container?

我正在尝试从 Azure 存储帐户读取文件。特别是,我想读取某个文件夹中包含的所有文件,例如:

lines = sc.textFile('/path_to_azure_folder/*')

我不太确定路径应该是什么。我尝试使用来自 Azure 的 URL 服务 blob 端点,然后是文件夹路径(我尝试使用 http 和 https):

lines = sc.textFile('https://container_name.blob.core.windows.net/path_to_folder/*')

没有成功:

diagnostics: Application XXXXXX failed 5 times due to AM Container for XXXXXXXX exited with exitCode: 1 Diagnostics: Exception from container-launch. Container id: XXXXXXXXX Exit code: 1

当我单击 'Info' 时,我提供的 URL 与我使用 Cyber​​Duck 应用程序获得的相同。

你的路径应该是这样的

lines = sc.textFile("wasb://containerName@$storageAccountName.blob.core.windows.net/folder_path/*")

这应该可以解决您的问题。

如果您尝试读取 Azure 存储帐户中的所有 blob,您可能需要查看我们提供的用于检索和操作数据的工具和库。入门文档 here.

希望对您有所帮助!