H2O R 包的安全问题

Security concerns with the H2O R package

我正在使用 H2O R 包。

我的理解是,这个包需要你有互联网连接以及连接到 h2o 服务器?如果您在数据上使用 h2o 包 运行 机器学习模型,h2o 会“看到”您的数据吗?我关闭了我的 wifi 并尝试 运行 使用 h2o 建立一些机器学习模型 :

data(iris) 
library(h2o)
h2o.init() 
iris_hf <- as.h2o(iris) 
iris_dl <- h2o.deeplearning(x = 1:4, y = 5, training_frame = iris_hf, seed=123456) 
predictions <- h2o.predict(iris_dl, iris_hf) 

这似乎可行,但有人可以确认一下吗?如果您不想让任何人看到您的数据,使用“h2o”库仍然是个好主意吗?由于上面的代码 运行s 没有互联网连接,我不确定这一点。

来自 h2o.init()documentation(强调我的):

This method first checks if H2O is connectible. If it cannot connect and startH2O = TRUE with IP of localhost, it will attempt to start an instance of H2O with IP = localhost, port = 54321. Otherwise, it stops immediately with an error. When initializing H2O locally, this method searches for h2o.jar in the R library resources [...], and if the file does not exist, it will automatically attempt to download the correct version from Amazon S3. The user must have Internet access for this process to be successful. Once connected, the method checks to see if the local H2O R package version matches the version of H2O running on the server. If there is a mismatch and the user indicates she wishes to upgrade, it will remove the local H2O R package and download/install the H2O R package from the server.

因此,h2o.init() 使用默认设置 ip = "127.0.0.1",如此处所示,将 R 会话与 local 中的 H2O 实例(有时称为“服务器”)连接起来 机器。如果所有必要的包文件都已到位并且是最新的,则不需要互联网连接;该软件包将尝试仅连接到互联网以 下载 东西,以防某些东西不存在或不是最新的。没有数据上传到任何地方。