如何在 HDInsight 上创建 Spark activity 到 运行 Scala 脚本?

How to create Spark activity to run Scala script on HDInsight?

我想使用 HDInsight 执行 Scala 脚本。下面的文章描述了 运行 py 脚本但没有提到 abt Scala。我按照文章(而不是 py 文件,上传了 Scala 文件)但是 Azure DataFactory 执行失败并显示错误消息:

({
    "errorCode": "2312",
    "message": "Spark job failed, batch id:4",
    "failureType": "UserError"
}

https://docs.microsoft.com/en-us/azure/data-factory/transform-data-using-spark

要解决您的问题,您需要

  1. 在 ADF 中打开管道
  2. 点击你的火花 activity
  3. 转到 script/jar,打开高级
  4. 将 activity 的调试信息设置为 总是。

虽然您可以在管道失败后查看日志。 Adf 将为您提供 url 到您的日志。它将位于 jar 根目录中 log 目录中的链接存储中。

检查日志以了解导致您的 Spark 应用程序失败的原因。 See image from ADF

如果你想执行用scala编写的spark代码,那么你必须调用Jar文件 .如果它太复杂,那么你也可以使用 databricks notebook。如果您遇到问题,请告诉我