Dataproc 上的 Apache Mahout?

Apache Mahout on Dataproc?

Apache Mahout (https://mahout.apache.org/users/recommender/intro-itembased-hadoop.html) 在 Google Dataproc 上可用吗?

我认为 Mahout 不受支持。

Google 默认情况下,Cloud Dataproc 不捆绑 Apache Mahout,但它可以通过几种不同的方式与 Dataproc 一起使用。

捆绑在一个超级罐子里

您可以将它捆绑到您的 jar 中(使用 Maven 阴影或程序集插件或您选择的构建工具中的等效项),并且 运行 它作为常规 Hadoop MapReduce 或 Spark 作业。

作为主节点上的客户端

Mahout 0.11.0 在 Dataproc 中作为 Apache Bigtop 包提供。如果你 运行:

sudo apt-get update
sudo apt-get install mahout -y

在 SSH 之后或在初始化操作中的主节点上,您应该使用具有正确类路径的 'mahout' 命令。

关于 Spark 版本控制的重要说明

Mahout 0.11.0 仅支持 Spark 1.3,但 Dataproc (1.0) 附带 Spark 1.6.1。您可以下载或捆绑 Mahout 0.12.0。上周发布,但即便如此也只声称支持 Spark 1.5。当Spark兼容性有更好的解决方案时,我们会在https://github.com/GoogleCloudPlatform/dataproc-initialization-actions.

创建Mahout初始化动作