我在哪里可以找到 Spark 1.6 中的 jars 文件夹?
Where can I find the jars folder in Spark 1.6?
从 Spark downloads page, if I download the tar file for v2.0.1 中,我看到它包含一些我认为可以包含在我的应用程序中的 jar。
如果我下载 tar file for v1.6.2 instead, I don't find the jars folder in there. Is there an alternate package type I should use from that site? I am currently choosing the default (pre-built for Hadoop 2.6). Alternately, where I can find those Spark jars - should I get each of them individually from http://spark-packages.org?
这是我要使用的一组指示性罐子:
- hadoop-common
- 火花核心
- spark-csv
- 火花-sql
- univocity-解析器
- 火花催化剂
- json4s-核心
Sparks 运送其 运行 时间的方式已从 V1 更改为 V2。
- 在 V2 中,默认情况下,您有 多个 个 JAR
$SPARK_HOME/jars
- 在 V1 中,默认情况下只有 一个
在
$SPARK_HOME/lib
下大量 spark-assembly*.jar
包含所有依赖项。
我相信您可以更改默认行为,但这需要您自己重新编译 Spark...
另外,关于 spark-csv
具体来说:
- V2中,SparkSQL原生支持CSV文件格式
- 在 V1 中,您必须从 Spark-Packages.org plus
commons-csv
from Commons.Apache.org 下载 spark-csv
(对于 Scala 2.10)并将两个 JAR 添加到您的 CLASSPATH
(在命令行上使用 --jars
, 或者使用 prop spark.driver.extraClassPath
+ 指令 sc.addJar()
如果命令行由于某种原因不起作用)
...而且语法也更麻烦
摘自 Spark 2.$SPARK_HOME/bin/spark-class
的香草 1.x(大大简化)
# Find Spark jars
SPARK_JARS_DIR="${SPARK_HOME}/jars"
LAUNCH_CLASSPATH="$SPARK_JARS_DIR/*"
从 Spark 1 开始。6.x
# Find assembly jar
ASSEMBLY_DIR="${SPARK_HOME}/lib"
ASSEMBLY_JARS="$(ls -1 "$ASSEMBLY_DIR" | grep "^spark-assembly.*hadoop.*\.jar$" || true)"
SPARK_ASSEMBLY_JAR="${ASSEMBLY_DIR}/${ASSEMBLY_JARS}"
LAUNCH_CLASSPATH="$SPARK_ASSEMBLY_JAR"
从 Spark downloads page, if I download the tar file for v2.0.1 中,我看到它包含一些我认为可以包含在我的应用程序中的 jar。
如果我下载 tar file for v1.6.2 instead, I don't find the jars folder in there. Is there an alternate package type I should use from that site? I am currently choosing the default (pre-built for Hadoop 2.6). Alternately, where I can find those Spark jars - should I get each of them individually from http://spark-packages.org?
这是我要使用的一组指示性罐子:
- hadoop-common
- 火花核心
- spark-csv
- 火花-sql
- univocity-解析器
- 火花催化剂
- json4s-核心
Sparks 运送其 运行 时间的方式已从 V1 更改为 V2。
- 在 V2 中,默认情况下,您有 多个 个 JAR
$SPARK_HOME/jars
- 在 V1 中,默认情况下只有 一个
在
$SPARK_HOME/lib
下大量spark-assembly*.jar
包含所有依赖项。
我相信您可以更改默认行为,但这需要您自己重新编译 Spark...
另外,关于 spark-csv
具体来说:
- V2中,SparkSQL原生支持CSV文件格式
- 在 V1 中,您必须从 Spark-Packages.org plus
commons-csv
from Commons.Apache.org 下载spark-csv
(对于 Scala 2.10)并将两个 JAR 添加到您的 CLASSPATH
(在命令行上使用--jars
, 或者使用 propspark.driver.extraClassPath
+ 指令sc.addJar()
如果命令行由于某种原因不起作用)
...而且语法也更麻烦
摘自 Spark 2.
$SPARK_HOME/bin/spark-class
的香草 1.x(大大简化)
# Find Spark jars
SPARK_JARS_DIR="${SPARK_HOME}/jars"
LAUNCH_CLASSPATH="$SPARK_JARS_DIR/*"
从 Spark 1 开始。6.x
# Find assembly jar
ASSEMBLY_DIR="${SPARK_HOME}/lib"
ASSEMBLY_JARS="$(ls -1 "$ASSEMBLY_DIR" | grep "^spark-assembly.*hadoop.*\.jar$" || true)"
SPARK_ASSEMBLY_JAR="${ASSEMBLY_DIR}/${ASSEMBLY_JARS}"
LAUNCH_CLASSPATH="$SPARK_ASSEMBLY_JAR"