NoSuchMethodError 使用 Databricks Spark-Avro 3.2.0

Question

我在 Docker 容器中有一个 spark master & worker 运行，带有 spark 2.0.2 和 hadoop 2.7。我正在尝试通过运行

从不同的容器（同一网络）提交来自 pyspark 的作业

df = spark.read.json("/data/test.json")
df.write.format("com.databricks.spark.avro").save("/data/test.avro")

但是我收到这个错误：

java.lang.NoSuchMethodError: org.apache.avro.generic.GenericData.createDatumWriter(Lorg/apache/avro/Schema;)Lorg/apache/avro/io/DatumWriter;

如果我以交互方式或使用 spark-submit 尝试，都没有区别。这些是我在 spark 中加载的包：

com.databricks#spark-avro_2.11;3.2.0 from central in [default]
com.thoughtworks.paranamer#paranamer;2.7 from central in [default]
org.apache.avro#avro;1.8.1 from central in [default]
org.apache.commons#commons-compress;1.8.1 from central in [default]
org.codehaus.jackson#jackson-core-asl;1.9.13 from central in [default]
org.codehaus.jackson#jackson-mapper-asl;1.9.13 from central in [default]
org.slf4j#slf4j-api;1.7.7 from central in [default]
org.tukaani#xz;1.5 from central in [default]
org.xerial.snappy#snappy-java;1.1.1.3 from central in [default]

spark-submit --version 输出：

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.0.2
      /_/

Branch 
Compiled by user jenkins on 2016-11-08T01:39:48Z
Revision 
Url 
Type --help for more information.

scala 版本为 2.11.8

我的 pyspark 命令：

PYSPARK_PYTHON=ipython /usr/spark-2.0.2/bin/pyspark --master spark://master:7077 --packages com.databricks:spark-avro_2.11:3.2.0,org.apache.avro:avro:1.8.1

我的 spark-submit 命令：

spark-submit script.py --master spark://master:7077 --packages com.databricks:spark-avro_2.11:3.2.0,org.apache.avro:avro:1.8.1

我读到 here 这可能是由 "an older version of avro being used" 引起的，所以我尝试使用 1.8.1，但我总是遇到同样的错误。阅读 avro 效果很好。有帮助吗？

Answer 1

我以前遇到过类似的问题。尝试使用 --jars {spark-avro_2.11-3.2.0.jar} 选项 spark-submit

Answer 2

这个错误的原因是hadoop默认包含了一个apache avro version 1.7.4，如果SPARK_DIST_CLASSPATH env变量包含了ivy2之前的hadoop common($HADOOP_HOME/share/common/lib/) jars，可以使用错误的版本而不是 spark-avro (>=1.7.6) 所需的版本并安装在 ivy2.

要检查是否属于这种情况，请打开 spark-shell 和运行

sc.getClass().getResource("/org/apache/avro/generic/GenericData.class")

这应该会告诉您 class 的位置，如下所示：

java.net.URL = jar:file:/lib/ivy/jars/org.apache.avro_avro-1.7.6.jar!/org/apache/avro/generic/GenericData.class

如果 class 指向 $HADOOP_HOME/share/common/lib/ 那么你必须简单地包含你的 ivy2 罐子在 SPARK_DIST_CLASSPATH 环境中常见的 hadoop 之前变量。

例如，在 Dockerfile 中

ENV SPARK_DIST_CLASSPATH="/home/root/.ivy2/*:$HADOOP_HOME/etc/hadoop/*:$HADOOP_HOME/share/hadoop/common/lib/*:$HADOOP_HOME/share/hadoop/common/*:$HADOOP_HOME/share/hadoop/hdfs/*:$HADOOP_HOME/share/hadoop/hdfs/lib/*:$HADOOP_HOME/share/hadoop/hdfs/*:$HADOOP_HOME/share/hadoop/yarn/lib/*:$HADOOP_HOME/share/hadoop/yarn/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*:$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/tools/lib/*"

注意： /home/root/.ivy2 是 ivy2 jar 的默认位置，您可以通过在 spark-defaults.conf 中设置 spark.jars.ivy 来操纵它可能是个好主意。

NoSuchMethodError 使用 Databricks Spark-Avro 3.2.0

NoSuchMethodError using Databricks Spark-Avro 3.2.0

avro

apache-spark

spark-avro

databricks