Azure Datalake Store Gen2 使用 scala spark 库从 Databricks 读取文件

Question

我正在尝试在 Azure Databricks（不是笔记本）上部署 Scala 库来执行一些计算。我正在尝试从 Azure Datalake Store Gen 2 目录中读取一些 avro 文件，进行一些操作，然后使用 avro 将其再次存储在另一个目录中。

我正在关注这个 guide。

我的理解是我需要挂载 Azure Datalake 的目录，以便我可以直接从那里读取 avro 文件，所以我需要做这样的事情：

dbutils.fs.mount(
  source = "abfss://<file-system-name>@<storage-account-name>.dfs.core.windows.net/",
  mountPoint = "/mnt/<mount-name>",
  extraConfigs = configs)

我的问题是我不知道如何将 "dbutils" 对象导入到我的项目中。我还使用 Java SDK library（版本 12.0.0-preview.6）来检索文件，但基本上我不知道如何使用 Databricks 来做到这一点。

如有任何帮助或提示，我们将不胜感激。

Answer 1

如果您要使用 dbutils 挂载目录（反之亦然），则不需要 Azure 存储 Java SDK。

dbutils mount 可用于一次挂载存储帐户，因此之后您可以使用/mnt 路径。

您可以在以下存储库中找到 dbutils：

libraryDependencies += "com.databricks" % "dbutils-api_2.11" % "0.0.4"

更多信息，请访问： https://docs.databricks.com/dev-tools/databricks-utils.html#databricks-utilities-api-library

你也可以直接使用 abfss 路径，所以挂载东西不是绝对必要的。

Azure Datalake Store Gen2 使用 scala spark 库从 Databricks 读取文件

Azure Datalake Store Gen2 read files from Databricks using a scala spark library

scala

azure-data-lake

azure-databricks

azure-data-lake-gen2