我在哪里可以找到 Spark 1.6 中的 jars 文件夹?

Where can I find the jars folder in Spark 1.6?

Spark downloads page, if I download the tar file for v2.0.1 中,我看到它包含一些我认为可以包含在我的应用程序中的 jar。

如果我下载 tar file for v1.6.2 instead, I don't find the jars folder in there. Is there an alternate package type I should use from that site? I am currently choosing the default (pre-built for Hadoop 2.6). Alternately, where I can find those Spark jars - should I get each of them individually from http://spark-packages.org?

这是我要使用的一组指示性罐子:

Sparks 运送其 运行 时间的方式已从 V1 更改为 V2。

  • 在 V2 中,默认情况下,您有 多个 个 JAR $SPARK_HOME/jars
  • 在 V1 中,默认情况下只有 一个$SPARK_HOME/lib 下大量 spark-assembly*.jar 包含所有依赖项。

我相信您可以更改默认行为,但这需要您自己重新编译 Spark...

另外,关于 spark-csv 具体来说:

  • V2中,SparkSQL原生支持CSV文件格式
  • 在 V1 中,您必须从 Spark-Packages.org plus commons-csv from Commons.Apache.org 下载 spark-csv(对于 Scala 2.10)并将两个 JAR 添加到您的 CLASSPATH
    (在命令行上使用 --jars , 或者使用 prop spark.driver.extraClassPath + 指令 sc.addJar() 如果命令行由于某种原因不起作用)
    ...而且语法也更麻烦


摘自 Spark 2.$SPARK_HOME/bin/spark-class 的香草 1.x(大大简化)

# Find Spark jars

  SPARK_JARS_DIR="${SPARK_HOME}/jars"
  LAUNCH_CLASSPATH="$SPARK_JARS_DIR/*"

从 Spark 1 开始。6.x

# Find assembly jar

  ASSEMBLY_DIR="${SPARK_HOME}/lib"
  ASSEMBLY_JARS="$(ls -1 "$ASSEMBLY_DIR" | grep "^spark-assembly.*hadoop.*\.jar$" || true)"
  SPARK_ASSEMBLY_JAR="${ASSEMBLY_DIR}/${ASSEMBLY_JARS}"
  LAUNCH_CLASSPATH="$SPARK_ASSEMBLY_JAR"