在 Zeppelin 中添加 spark-csv 依赖项会导致网络错误

Question

在 Zeppelin 中添加 spark-csv 依赖项会导致网络错误。我去了 Zeppelin 中的 Spark 解释器并添加了 Spark-csv 依赖项。 com.databricks:spark-csv_2.10:1.2.0。我还在参数选项中添加了它。

我重新启动了 Zeppelin 和运行以下命令：

import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)
val df = sqlContext.read
    .format("com.databricks.spark.csv")
    .option("header", "true") // Use first line of all files as header
    .option("inferSchema", "true") // Automatically infer data types
    .load("https://github.com/databricks/spark-csv/raw/master/src/test/resources/cars.csv")
df.printSchema()

我添加的依赖是否正确？

更新

尝试将库更改为 com.databricks:spark-csv_2.11:jar:1.6.0 并得到以下内容：

解释器 'spark.spark' 的错误设置属性：无法在中心 (http://repo1.maven.org/maven2/) 中找到工件 com.databricks:spark-csv_2.11:jar:1.6.0 17=]

Answer 1

看起来你使用了相当旧的库版本，此外还为 scala 2.10（你的 spark 似乎是 2.11）构建。

将软件包更改为 com.databricks:spark-csv_2.11:1.5.0，它应该可以工作。

在 Zeppelin 中添加 spark-csv 依赖项会导致网络错误

Adding spark-csv dependency in Zeppelin is creating a network error

amazon-emr

emr

apache-spark

apache-spark-sql