在 Zeppelin 中添加 spark-csv 依赖项会导致网络错误

Adding spark-csv dependency in Zeppelin is creating a network error

在 Zeppelin 中添加 spark-csv 依赖项会导致网络错误。 我去了 Zeppelin 中的 Spark 解释器并添加了 Spark-csv 依赖项。 com.databricks:spark-csv_2.10:1.2.0。我还在参数选项中添加了它。

我重新启动了 Zeppelin 和 运行 以下命令:

import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)
val df = sqlContext.read
    .format("com.databricks.spark.csv")
    .option("header", "true") // Use first line of all files as header
    .option("inferSchema", "true") // Automatically infer data types
    .load("https://github.com/databricks/spark-csv/raw/master/src/test/resources/cars.csv")
df.printSchema()

我添加的依赖是否正确?

更新

尝试将库更改为 com.databricks:spark-csv_2.11:jar:1.6.0 并得到以下内容:

解释器 'spark.spark' 的错误设置属性:无法在中心 (http://repo1.maven.org/maven2/) 中找到工件 com.databricks:spark-csv_2.11:jar:1.6.0 17=]

看起来你使用了相当旧的库版本,此外还为 scala 2.10(你的 spark 似乎是 2.11)构建。

将软件包更改为 com.databricks:spark-csv_2.11:1.5.0,它应该可以工作。