Azure Datalake Store Gen2 使用 scala spark 库从 Databricks 读取文件
Azure Datalake Store Gen2 read files from Databricks using a scala spark library
我正在尝试在 Azure Databricks(不是笔记本)上部署 Scala 库来执行一些计算。我正在尝试从 Azure Datalake Store Gen 2 目录中读取一些 avro 文件,进行一些操作,然后使用 avro 将其再次存储在另一个目录中。
我正在关注这个 guide。
我的理解是我需要挂载 Azure Datalake 的目录,以便我可以直接从那里读取 avro 文件,所以我需要做这样的事情:
dbutils.fs.mount(
source = "abfss://<file-system-name>@<storage-account-name>.dfs.core.windows.net/",
mountPoint = "/mnt/<mount-name>",
extraConfigs = configs)
我的问题是我不知道如何将 "dbutils" 对象导入到我的项目中。我还使用 Java SDK library(版本 12.0.0-preview.6)来检索文件,但基本上我不知道如何使用 Databricks 来做到这一点。
如有任何帮助或提示,我们将不胜感激。
如果您要使用 dbutils 挂载目录(反之亦然),则不需要 Azure 存储 Java SDK。
dbutils mount 可用于一次挂载存储帐户,因此之后您可以使用/mnt 路径。
您可以在以下存储库中找到 dbutils:
libraryDependencies += "com.databricks" % "dbutils-api_2.11" % "0.0.4"
更多信息,请访问:
https://docs.databricks.com/dev-tools/databricks-utils.html#databricks-utilities-api-library
你也可以直接使用 abfss
路径,所以挂载东西不是绝对必要的。
我正在尝试在 Azure Databricks(不是笔记本)上部署 Scala 库来执行一些计算。我正在尝试从 Azure Datalake Store Gen 2 目录中读取一些 avro 文件,进行一些操作,然后使用 avro 将其再次存储在另一个目录中。
我正在关注这个 guide。
我的理解是我需要挂载 Azure Datalake 的目录,以便我可以直接从那里读取 avro 文件,所以我需要做这样的事情:
dbutils.fs.mount(
source = "abfss://<file-system-name>@<storage-account-name>.dfs.core.windows.net/",
mountPoint = "/mnt/<mount-name>",
extraConfigs = configs)
我的问题是我不知道如何将 "dbutils" 对象导入到我的项目中。我还使用 Java SDK library(版本 12.0.0-preview.6)来检索文件,但基本上我不知道如何使用 Databricks 来做到这一点。
如有任何帮助或提示,我们将不胜感激。
如果您要使用 dbutils 挂载目录(反之亦然),则不需要 Azure 存储 Java SDK。
dbutils mount 可用于一次挂载存储帐户,因此之后您可以使用/mnt 路径。
您可以在以下存储库中找到 dbutils:
libraryDependencies += "com.databricks" % "dbutils-api_2.11" % "0.0.4"
更多信息,请访问: https://docs.databricks.com/dev-tools/databricks-utils.html#databricks-utilities-api-library
你也可以直接使用 abfss
路径,所以挂载东西不是绝对必要的。