使用 init 脚本在 dbfs 和 mvn 包中安装 jar 文件
install jar file in dbfs and mvn packages using init script
我在 DBFS 中几乎没有 Jar files/packages,我想要一个初始化脚本(以便我可以将它放在自动化集群中)在每次集群启动时安装 Jar 包。
我还想使用 init 脚本从 maven 安装 maven 包。
我可以使用数据块完成所有这些 UI。但要求是使用初始化脚本安装库。
要安装 jar 文件,只需将文件放到 DBFS 的某个位置,然后在初始化脚本中执行:
cp /dbfs/<some-location>/*.jar /databricks/jars/
maven 依赖项的安装比较棘手,因为您还需要获取依赖项。但它是可行的 - 来自初始化脚本:
- 下载并解压Maven
- 执行:
mvn dependency:get -Dartifact=<maven_coordinates>
- 移动下载的 jar:
find ~/.m2/repository/ -name \*.jar -print0|xargs -0 mv -t /databricks/jars/
- (可选)删除不需要的目录:
rm -rf ~/.m2/
P.S。但实际上,我建议通过 Databricks Terraform Provider.
来自动化这些东西
我在 DBFS 中几乎没有 Jar files/packages,我想要一个初始化脚本(以便我可以将它放在自动化集群中)在每次集群启动时安装 Jar 包。
我还想使用 init 脚本从 maven 安装 maven 包。
我可以使用数据块完成所有这些 UI。但要求是使用初始化脚本安装库。
要安装 jar 文件,只需将文件放到 DBFS 的某个位置,然后在初始化脚本中执行:
cp /dbfs/<some-location>/*.jar /databricks/jars/
maven 依赖项的安装比较棘手,因为您还需要获取依赖项。但它是可行的 - 来自初始化脚本:
- 下载并解压Maven
- 执行:
mvn dependency:get -Dartifact=<maven_coordinates>
- 移动下载的 jar:
find ~/.m2/repository/ -name \*.jar -print0|xargs -0 mv -t /databricks/jars/
- (可选)删除不需要的目录:
rm -rf ~/.m2/
P.S。但实际上,我建议通过 Databricks Terraform Provider.
来自动化这些东西