如何为 Zeppelin 的 Spark 解释器添加 Delta Lake 支持？

Question

我正在尝试将 Delta Lake 支持添加到 Zeppelin。

到目前为止，我已经尝试将 io.delta:delta-core_2.12:0.7.0 依赖项添加到 spark 解释器，以及在解释器视图中添加一些其他相关操作...但没有任何效果。

当我添加 io.delta:delta-core_2.12:0.7.0 依赖项时，我的笔记本中出现错误，例如：

org.apache.zeppelin.interpreter.InterpreterException: java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps;
    at org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:76)
    at org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:668)
    at org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:577)
    at org.apache.zeppelin.scheduler.Job.run(Job.java:172)
    at org.apache.zeppelin.scheduler.AbstractScheduler.runJob(AbstractScheduler.java:130)
    at org.apache.zeppelin.scheduler.FIFOScheduler.lambda$runJobInScheduler[=10=](FIFOScheduler.java:39)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps;
    at org.apache.spark.util.Utils$.stringToSeq(Utils.scala:2664)
    at org.apache.spark.internal.config.ConfigHelpers$.stringToSeq(ConfigBuilder.scala:49)
    at org.apache.spark.internal.config.TypedConfigBuilder$$anonfun$toSequence.apply(ConfigBuilder.scala:125)
    at org.apache.spark.internal.config.TypedConfigBuilder$$anonfun$toSequence.apply(ConfigBuilder.scala:125)
    at org.apache.spark.internal.config.TypedConfigBuilder.createWithDefault(ConfigBuilder.scala:143)
    at org.apache.spark.internal.config.package$.<init>(package.scala:172)
    at org.apache.spark.internal.config.package$.<clinit>(package.scala)
    at org.apache.spark.SparkConf$.<init>(SparkConf.scala:716)
    at org.apache.spark.SparkConf$.<clinit>(SparkConf.scala)
    at org.apache.spark.SparkConf.set(SparkConf.scala:95)
    at org.apache.spark.SparkConf$$anonfun$loadFromSystemProperties.apply(SparkConf.scala:77)
    at org.apache.spark.SparkConf$$anonfun$loadFromSystemProperties.apply(SparkConf.scala:76)
    at scala.collection.TraversableLike$WithFilter.$anonfun$foreach(TraversableLike.scala:877)
    at scala.collection.immutable.HashMap$HashMap1.foreach(HashMap.scala:234)
    at scala.collection.immutable.HashMap$HashTrieMap.foreach(HashMap.scala:468)
    at scala.collection.immutable.HashMap$HashTrieMap.foreach(HashMap.scala:468)
    at scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:876)
    at org.apache.spark.SparkConf.loadFromSystemProperties(SparkConf.scala:76)
    at org.apache.spark.SparkConf.<init>(SparkConf.scala:71)
    at org.apache.spark.SparkConf.<init>(SparkConf.scala:58)
    at org.apache.zeppelin.spark.SparkInterpreter.open(SparkInterpreter.java:80)
    at org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:70)
    ... 8 more

我的目标是 read/write from/to 使用 Scala + Spark 的 Delta Lake 表。

谢谢！

Answer 1

最可能的原因是您将 Delta Lake 与 Spark 2.x 结合使用 - 您使用的包应该与 Spark 3.0+（使用 Scala 2.12 编译）一起使用。支持 2.4（最低 2.4.2）的最新版本的 Delta 是 0.6.1（见此）。

所以如果你想使用这个特定的包，你需要升级 Spark 版本，或者如果你想保留你的 Spark 安装，请使用另一个版本的 Delta。

如何为 Zeppelin 的 Spark 解释器添加 Delta Lake 支持？

How to add Delta Lake support to Zeppelin's spark interpreter?

scala

apache-spark

apache-zeppelin

delta-lake