Azure Synapse:上传 Spark 作业参考文件中的 py 文件目录

Azure Synapse: Upload directory of py files in Spark job reference files

我正在尝试传递 Azure Synapse Spark 作业定义中主 python 文件中引用的 python 文件的整个目录,但这些文件没有出现在该位置,我得到找不到模块错误。正在尝试这样上传:

abfss://[数据湖中的目录路径]/*

在 Synapse 上实现此目的的方法是将您的 python 文件打包到一个 wheel 包中,并将 wheel 包上传到 specific location Azure Data Lake Storage,您的 spark 池将在其中加载它们从每次开始。这将使自定义 python 包可用于使用该 spark 池的所有作业和笔记本。

您可以在官方文档中找到更多详细信息:https://docs.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-manage-python-packages#install-wheel-files

您必须通过导出它来欺骗 Spark 作业定义,将其编辑为 JSON,然后将其导入回来。

导出后,在文本编辑器中打开并添加以下内容:

"conf": {
  "spark.submit.pyFiles": 
    "path-to-abfss/module1.zip, path-to-abfss/module2.zip"
},

现在,将 JSON 导入回来。