将 Apache Spark 包安装到 运行 本地

Installing Apache Spark Packages to run Locally

我正在寻找将 Spark 包(特别是 spark-avro)本地安装到 运行 并通过 spark-submit 命令正确使用它们的清晰指南或步骤。

我花了很多时间阅读了很多帖子和指南,但仍然无法让 spark-submit 使用本地部署的 spark-avro 包。因此,如果有人已经使用 spark-avro 或其他软件包完成了此操作,请分享您的智慧:)

我找到的所有现有文档都有点不清楚。

非常感谢清晰的步骤和示例! P.S。我知道 Python/PySpark/SQL,但不多 Java(还)...

迈克尔

在 spark-submit 命令本身中,您可以传递 avro 包详细信息(确保支持 avro 和 spark 版本)

spark-submit --packages org.apache.spark:spark-avro_<required_version>:<spark_version>

示例,

spark-submit --packages org.apache.spark:spark-avro_2.11:2.4.0

您可以将其与 spark-shell 命令一起传递以处理 avro 文件。