如何从 Java 连接到 Databricks Apache Spark 的远程实例并将 csv 文件写入远程实例?
How do I connect to and write a csv file to a remote instance of Databricks Apache Spark from Java?
我正在尝试连接到 Databricks 的远程实例并将 csv 文件写入 DBFS 的特定文件夹。我可以在这里和那里找到点点滴滴,但我不知道如何完成这项工作。如何从本地计算机上的 Java 程序 运行 将文件添加到远程 Databricks 实例上的 DBFS?
我目前正在使用我从这里创建的社区实例:
https://databricks.com/try-databricks
这是我的实例的 url(我猜“o=7823909094774610”正在识别我的实例)。
https://community.cloud.databricks.com/?o=7823909094774610
这是我正在寻找的一些资源,试图解决这个问题,但我仍然无法着手解决:
Databricks Connect 文档:这讨论了连接但是
不是特别来自 Java。它给出了“连接
Eclipse" to data bricks 似乎是如何获取 jar
对此的依赖(附带问题,是否有此的 mvn 版本?)。 https://docs.databricks.com/dev-tools/databricks-connect.html#run-examples-from-your-ide
一些Java示例代码:好像没有连接的例子
到远程 Databricks 实例
https://www.programcreek.com/java-api-examples/index.php?api=org.apache.spark.sql.SparkSession
Databricks 文件系统 (DBFS) 文档:很好地概述了
文件功能,但似乎没有具体谈论如何
从远程 Java 应用程序连接并将文件写入
来自 Java 应用程序的 Databricks 实例
https://docs.databricks.com/data/databricks-file-system.html
FileStore 文档:很好地概述了文件存储,但
再次似乎没有具体谈论如何从
远程 Java 应用程序
https://docs.databricks.com/data/filestore.html
您可以查看 DBFS REST API,并考虑在您的 Java 应用程序中使用它。
如果不需要 Java 解决方案,那么您也可以查看 databricks-cli。使用 pip (pip install databricks-cli
) 安装后,您只需:
- 通过 运行 配置 CLI:
databricks configure
- 主持人:https://community.cloud.databricks.com/?o=7823909094774610
- 用户名:<您的用户名>
- 密码:<您的密码>
- 通过运行将文件复制到DBFS:
databricks fs cp <source> dbfs:/<target>
我正在尝试连接到 Databricks 的远程实例并将 csv 文件写入 DBFS 的特定文件夹。我可以在这里和那里找到点点滴滴,但我不知道如何完成这项工作。如何从本地计算机上的 Java 程序 运行 将文件添加到远程 Databricks 实例上的 DBFS?
我目前正在使用我从这里创建的社区实例: https://databricks.com/try-databricks
这是我的实例的 url(我猜“o=7823909094774610”正在识别我的实例)。
https://community.cloud.databricks.com/?o=7823909094774610
这是我正在寻找的一些资源,试图解决这个问题,但我仍然无法着手解决:
Databricks Connect 文档:这讨论了连接但是 不是特别来自 Java。它给出了“连接 Eclipse" to data bricks 似乎是如何获取 jar 对此的依赖(附带问题,是否有此的 mvn 版本?)。 https://docs.databricks.com/dev-tools/databricks-connect.html#run-examples-from-your-ide
一些Java示例代码:好像没有连接的例子 到远程 Databricks 实例 https://www.programcreek.com/java-api-examples/index.php?api=org.apache.spark.sql.SparkSession
Databricks 文件系统 (DBFS) 文档:很好地概述了 文件功能,但似乎没有具体谈论如何 从远程 Java 应用程序连接并将文件写入 来自 Java 应用程序的 Databricks 实例 https://docs.databricks.com/data/databricks-file-system.html
FileStore 文档:很好地概述了文件存储,但 再次似乎没有具体谈论如何从 远程 Java 应用程序 https://docs.databricks.com/data/filestore.html
您可以查看 DBFS REST API,并考虑在您的 Java 应用程序中使用它。
如果不需要 Java 解决方案,那么您也可以查看 databricks-cli。使用 pip (pip install databricks-cli
) 安装后,您只需:
- 通过 运行 配置 CLI:
databricks configure
- 主持人:https://community.cloud.databricks.com/?o=7823909094774610
- 用户名:<您的用户名>
- 密码:<您的密码>
- 通过运行将文件复制到DBFS:
databricks fs cp <source> dbfs:/<target>