使用 databricks 中的 cobrix 处理大型机文件 - Pyspark python 3

Processing a mainframe file using cobrix in databricks - Pyspark python 3

有谁知道如何将 cobrix 集成到 azure databricks - 用于处理大型机文件的 pyspark,具有 comp-3 列(Python 3 )

请在下方link查看详细问题。 https://github.com/AbsaOSS/cobrix/issues/236#issue-550885564

要使第三方或本地构建的代码可用于集群上的笔记本和作业 运行,您可以安装一个库。可以用Python、Java、Scala、R写库,可以上传Java、Scala、Python库,指向PyPI、Maven、和 CRAN 存储库。

安装第三方库的步骤:

步骤 1: 创建 Databricks 集群。

Step2: Select集群创建。

步骤 3: Select 库 => 安装新的 => Select 库源 = "Maven" => 坐标 => 搜索包 = > Select Maven Central => 搜索所需的包。示例:(spark-cobol, cobol-parser, scodec) => Select 所需版本 => 安装

详情请参考“Azure Databricks - libraries" and "Cobrix: A Mainframe Data Source for Spark SQL and Streaming”。

希望这对您有所帮助。如果您有任何疑问,请告诉我们。