Jupyter/IPython 的Spark/Scala 个内核中选择哪个?

Which of the many Spark/Scala kernels for Jupyter/IPython to choose?

IPython/Jupyter 有很多 Scala/Spark 个内核:

  1. IScala
  2. ISpark
  3. Jupyter Scala
  4. Apache Toree(prev Spark Kernel)

有谁知道它们中的哪一个与 IPython/Jupyter 最兼容并且使用起来最舒服:

  1. 斯卡拉
  2. Spark(Scala)

我不能代表所有的人,但我使用 Spark Kernel,它非常适合同时使用 Scala 和 Spark。

我发现 IScala 和 Jupyter Scala 不够稳定且不够完善。执行单元格后,Jupyter Scala 总是打印每个变量值;我不想在 99% 的时间看到这个。

Spark 内核是我的最爱。适用于 Spark 和普通的旧 Scala。

我一直在使用 spark-kernel(您的选项 #4)并且非常满意。

你可以在这里找到一个很好的how-to安装(CentOS 7上的CDH 5.5)(我自己用它在pseudo-distributed模式下安装在单节点中)。

http://www.davidgreco.me/blog/2015/12/24/how-to-use-jupyter-with-spark-kernel-and-cloudera-hadoop-slash-spark/

Spark 内核 已被 Apache 孵化器 接受,并已将所有开发转移到 Apache Toree