H20 - 超过 ncpus

Question

我正在尝试运行 h2o.automl() 但它一直失败，因为我运行正在退出 ncpus。

我通过请求 47 个线程来启动我的 h20 会话：h2o.init(nthreads=47)

我一开始就提供了足够数量的 ncpus 和内存：

R is connected to the H2O cluster: H2O cluster uptime: 2 seconds 286 milliseconds H2O cluster timezone: Europe/London H2O data parsing timezone: UTC H2O cluster version: 3.18.0.4 H2O cluster version age: 18 days H2O cluster name: H2O_started_from_R_cmorgan1_gvi181 H2O cluster total nodes: 1 H2O cluster total memory: 26.67 GB H2O cluster total cores: 40 H2O cluster allowed cores: 40 H2O cluster healthy: TRUE H2O Connection ip: localhost H2O Connection port: 54321 H2O Connection proxy: NA H2O Internal Security: FALSE H2O API Extensions: XGBoost, Algos, AutoML, Core V3, Core V4 R Version: R version 3.4.1 (2017-06-30)

然而，一段时间后（38% 完成）它停止并告诉我我没有足够的 ncpus。

|======================================================================| 100% |==== |======= |========= |========== |==============
|================ |================= |=========== |===
|===========================
| 38%=>> PBS: job killed: ncpus 33.43 exceeded limit 32 (sum)

============================================
    Job resource usage summary

             Memory (GB)    NCPUs  Requested  :        45            48  Used       :        12 (peak)  36.00 (ave)

以前有人遇到过这个问题吗？您有解决办法吗？我不相信我的数据大小异常，它有 29 个缩放参数和 94,000 行数据。

提前致谢，

Answer 1

这与H2O无关

这里的线索是消息"PBS: job killed"。

此处的少量 Internet 搜索表明您正在以某种方式使用 PBS 调度程序 (https://en.wikipedia.org/wiki/Portable_Batch_System)，这会扼杀您的工作。（我以前从未真正见过有人使用 PBS，但根据以上信息，这一切似乎都很有可能。）

由于 PBS 告诉您您的限制是 32 个内核，我建议您尝试指定一个小于该值的值。也许 h2o.init(nthreads=30) PBS 不会再杀死你的进程。

H20 - 超过 ncpus

H20 - ncpus exceeded

r

h2o

automl