通过 Python 命令和 dbutils 在 Databricks 上安装 Maven 库

Installing Maven library on Databricks via Python commands and dbutils

在 Databricks 上,如果尚未安装,我想通过 Python Notebook 中的命令安装 Maven 库。

如果它是一个 Python PyPI 库,我将执行如下操作:

# Get a list of all available library 
library_name_list = dbutils.library.list()
# Suppose the library of interest was "scikit-learn"
if "scikit-learn" not in library_name_list:
  # Install the library 
  dbutils.library.installPyPI("scikit-learn")

如何对 Maven 库“com.microsoft.azure.kusto:spark-kusto-connector:2.0.0”执行相同的操作,即检查它是否已安装,如果没有则安装?

我可以使用 UI 安装 Maven 库,方法是转到“Clusters”->“Libraries”->“Install New”->“Maven”。但我想通过脚本以编程方式进行。

Note: Library utilities (dbutils.library.installPyPI("")) allow you to install Python libraries and create an environment scoped to a notebook session.

以下是从 Maven 存储库以编程方式安装库的步骤:

You can use Databricks CLI to install maven libraries in Azure Databricks.

第 1 步: 从 maven 坐标,您可以转到 Maven 存储库并选择您要查找的版本并记下依赖项(groupId、artifactId 和 Version)。

Step2 使用 databricks CLI 获取 cluster-ID。

获得cluster-ID:databricks clusters list

第 3 步: 使用以下 Databricks CLI 命令在 Databricks 中安装“com.microsoft.azure.kusto:spark-kusto-connector:2.0.0”。

语法: databricks libraries install --cluster-id "Cluster ID" --maven-coordinates "GroupId:ArtifactId:Version" (i.e.org.jsoup:jsoup:1.7.2)

使用 databricks CLI 安装 maven 库:databricks libraries install --cluster-id "1013-095611-mazes551" --maven-coordinates "com.microsoft.azure.kusto:spark-kusto-connector:2.0.0"

检查集群上的安装库:databricks libraries list --cluster-id "1013-095611-mazes551"

在Azure Databricks中安装包的不同方法,参考: