运行本地桌面上的H2O会加速计算吗?

Will Run H2O on local desktop will speed up calculation?

我刚开始学H2O。我很困惑如果我 运行 H2O 在家里只是为了学习。当我只是 运行 "h2o.init()" 然后开始使用 H2O 清理数据或建模。会不会加快大数据的计算速度?它是否自动在线连接到某些 H2O 集群? H2O 簇位于何处?

当您 运行 h2o.init()(即没有参数)时,它将在同一台机器上启动 "cluster"。默认情况下,它将分配大约四分之一的机器内存,并且可以使用所有线程或两个线程(后者是如果使用 R 并且您从 CRAN 安装它)。你会发现 Flow 在 http://127.0.0.1:54321/

上监听

如果你已经在另一台机器上有一个 H2O 集群 运行ning(无论是在你的 LAN 上还是在远程云服务器上),将地址提供给 h2o.init() 让它连接到那个而不是在本地开始任何事情。

运行 help(h2o.init)(在 Python 上)或 ?h2o.init(在 R 上)查看所有可用选项。

注意:H2O 是一个 client/server 架构,但服务器(也称为 "cluster",即使你只有一台机器)是所有操作发生的地方,也是数据的地方和模型都保留了,客户端比较瘦。回应其中一条评论,如果您将 H2O 运行ning localhost 与 scikit-learn 之类的库进行比较,则没有太大差异(可用计算能力)。 H2O 的优点是您可以通过 LAN 轻松透明地添加更多机器,以增加可用内存和(在某种程度上)计算能力;以及使用 R 以外的其他语言的客户端。缺点主要是必须记住服务器是保存数据的地方;例如对于大型数据集,请使用函数将其直接加载到您的服务器中,因为在客户端保留副本只会浪费内存。