Hadoop集群上的R安装

R installation on Hadoop Cluster

我正在现有的 Hadoop 集群上设置 R。到目前为止,我已经在群集的节点(EDGE 节点)部分之一上安装了 R rpms 和相关库包,并且它按预期工作。 R rpms 是安装在集群的所有服务器上还是仅安装在库目录上 (在我的例子中 /usr/lib64/R/library)在所有服务器之间同步?

对于 rmr,您需要到处安装,对于 rhdfs,您不需要,对于 rhive,我不知道。安装意味着 R rpms 或等效和必要的依赖项。至于同步 lib​​ 目录,我尝试了类似的方法来简化 rmr2 的部署,但我们(客户和我,一致同意)取消了插头,因为它似乎是一个非常脆弱的策略(取决于所有库完全相同) .它在一个非常受控的环境中工作,但我们同步了整个事情,而不仅仅是图书馆。