Azure Databricks:在没有 Internet 访问权限的情况下在虚拟网络下导入 PyPI 库

Azure Databricks: Import PyPI libraries under Virtual Network wthout internet access

我们有一个带有虚拟网络的 Azure Databricks 集群,以及一个只允许集群节点之间的连接而不允许 Internet 访问的网络安全组。

当我们尝试通过 PyPI 导入库并启动 de cluster 时,集群给出了这个错误:

WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError(': Failed to establish a new connection: [Errno 101] Network is unreachable',)': /simple/azure-datalake-store/

奇怪的是,如果您尝试导入 Maven 库,它会正常工作。

任何人都知道如何解决这个问题。

谢谢。

Log4j 附带数据块,因此它可能在本地缓存中找到它。如果你在 Maven 上随机尝试一些东西,它应该会失败。

至于 pypi - 你不能直接连接,所以你不能以这种方式添加库。而是手动将库下载到您的桌面并从 ui 手动安装。

您需要手动将库文件上传到dbfs。使用 cli 或 powershell 来执行此操作。然后在工作区中使用添加 > 库选项添加库。 Link 到您的文件位置。

我们已经在网络安全组中打开了 IP 范围 151.101.0.0/16 和端口 443,并且 PYPI 库正常工作