Dataproc 上的 Apache Mahout?
Apache Mahout on Dataproc?
Apache Mahout (https://mahout.apache.org/users/recommender/intro-itembased-hadoop.html) 在 Google Dataproc 上可用吗?
我认为 Mahout 不受支持。
Google 默认情况下,Cloud Dataproc 不捆绑 Apache Mahout,但它可以通过几种不同的方式与 Dataproc 一起使用。
捆绑在一个超级罐子里
您可以将它捆绑到您的 jar 中(使用 Maven 阴影或程序集插件或您选择的构建工具中的等效项),并且 运行 它作为常规 Hadoop MapReduce 或 Spark 作业。
作为主节点上的客户端
Mahout 0.11.0 在 Dataproc 中作为 Apache Bigtop 包提供。如果你 运行:
sudo apt-get update
sudo apt-get install mahout -y
在 SSH 之后或在初始化操作中的主节点上,您应该使用具有正确类路径的 'mahout' 命令。
关于 Spark 版本控制的重要说明
Mahout 0.11.0 仅支持 Spark 1.3,但 Dataproc (1.0) 附带 Spark 1.6.1。您可以下载或捆绑 Mahout 0.12.0。上周发布,但即便如此也只声称支持 Spark 1.5。当Spark兼容性有更好的解决方案时,我们会在https://github.com/GoogleCloudPlatform/dataproc-initialization-actions.
创建Mahout初始化动作
Apache Mahout (https://mahout.apache.org/users/recommender/intro-itembased-hadoop.html) 在 Google Dataproc 上可用吗?
我认为 Mahout 不受支持。
Google 默认情况下,Cloud Dataproc 不捆绑 Apache Mahout,但它可以通过几种不同的方式与 Dataproc 一起使用。
捆绑在一个超级罐子里
您可以将它捆绑到您的 jar 中(使用 Maven 阴影或程序集插件或您选择的构建工具中的等效项),并且 运行 它作为常规 Hadoop MapReduce 或 Spark 作业。
作为主节点上的客户端
Mahout 0.11.0 在 Dataproc 中作为 Apache Bigtop 包提供。如果你 运行:
sudo apt-get update
sudo apt-get install mahout -y
在 SSH 之后或在初始化操作中的主节点上,您应该使用具有正确类路径的 'mahout' 命令。
关于 Spark 版本控制的重要说明
Mahout 0.11.0 仅支持 Spark 1.3,但 Dataproc (1.0) 附带 Spark 1.6.1。您可以下载或捆绑 Mahout 0.12.0。上周发布,但即便如此也只声称支持 Spark 1.5。当Spark兼容性有更好的解决方案时,我们会在https://github.com/GoogleCloudPlatform/dataproc-initialization-actions.
创建Mahout初始化动作