我可以在 Jupyter/IPython 中使用 hadoop

Can I use hadoop in Jupyter/IPython

我可以在 Jupyter/IPython 中使用 Hadoop 和 MapReduce 吗?是否有类似于 PySpark for Spark 的东西?

当然可以。许多框架,例如 Hadoop Streaming, mrjob and dumbo 等等。将这些包含在 Jupyter 中的技术方面应该包括 subprocess.Popen() 调用或典型的 python 导入,具体取决于框架。

可以在这个 cloudera blogpost.

中找到这些框架中的一些很好的 overview/critique