H20 - 超过 ncpus
H20 - ncpus exceeded
我正在尝试 运行 h2o.automl() 但它一直失败,因为我 运行 正在退出 ncpus。
我通过请求 47 个线程来启动我的 h20 会话:h2o.init(nthreads=47)
我一开始就提供了足够数量的 ncpus 和内存:
R is connected to the H2O cluster:
H2O cluster uptime: 2 seconds 286 milliseconds
H2O cluster timezone: Europe/London
H2O data parsing timezone: UTC
H2O cluster version: 3.18.0.4
H2O cluster version age: 18 days
H2O cluster name: H2O_started_from_R_cmorgan1_gvi181
H2O cluster total nodes: 1
H2O cluster total memory: 26.67 GB
H2O cluster total cores: 40
H2O cluster allowed cores: 40
H2O cluster healthy: TRUE
H2O Connection ip: localhost
H2O Connection port: 54321
H2O Connection proxy: NA
H2O Internal Security: FALSE
H2O API Extensions: XGBoost, Algos, AutoML, Core V3, Core V4
R Version: R version 3.4.1 (2017-06-30)
然而,一段时间后(38% 完成)它停止并告诉我我没有足够的 ncpus。
|======================================================================| 100% |==== |======= |========= |========== |==============
|================ |================= |=========== |===
|===========================
| 38%=>> PBS: job killed: ncpus 33.43 exceeded limit 32 (sum)
============================================
Job resource usage summary
Memory (GB) NCPUs Requested : 45 48 Used : 12 (peak) 36.00 (ave)
以前有人遇到过这个问题吗?您有解决办法吗?我不相信我的数据大小异常,它有 29 个缩放参数和 94,000 行数据。
提前致谢,
这与H2O无关
这里的线索是消息"PBS: job killed"。
此处的少量 Internet 搜索表明您正在以某种方式使用 PBS 调度程序 (https://en.wikipedia.org/wiki/Portable_Batch_System),这会扼杀您的工作。 (我以前从未真正见过有人使用 PBS,但根据以上信息,这一切似乎都很有可能。)
由于 PBS 告诉您您的限制是 32 个内核,我建议您尝试指定一个小于该值的值。也许 h2o.init(nthreads=30)
PBS 不会再杀死你的进程。
我正在尝试 运行 h2o.automl() 但它一直失败,因为我 运行 正在退出 ncpus。
我通过请求 47 个线程来启动我的 h20 会话:h2o.init(nthreads=47)
我一开始就提供了足够数量的 ncpus 和内存:
R is connected to the H2O cluster: H2O cluster uptime: 2 seconds 286 milliseconds H2O cluster timezone: Europe/London H2O data parsing timezone: UTC H2O cluster version: 3.18.0.4 H2O cluster version age: 18 days H2O cluster name: H2O_started_from_R_cmorgan1_gvi181 H2O cluster total nodes: 1 H2O cluster total memory: 26.67 GB H2O cluster total cores: 40 H2O cluster allowed cores: 40 H2O cluster healthy: TRUE H2O Connection ip: localhost H2O Connection port: 54321 H2O Connection proxy: NA H2O Internal Security: FALSE H2O API Extensions: XGBoost, Algos, AutoML, Core V3, Core V4 R Version: R version 3.4.1 (2017-06-30)
然而,一段时间后(38% 完成)它停止并告诉我我没有足够的 ncpus。
|======================================================================| 100% |==== |======= |========= |========== |==============
|================ |================= |=========== |===
|===========================
| 38%=>> PBS: job killed: ncpus 33.43 exceeded limit 32 (sum)============================================
Job resource usage summary Memory (GB) NCPUs Requested : 45 48 Used : 12 (peak) 36.00 (ave)
以前有人遇到过这个问题吗?您有解决办法吗?我不相信我的数据大小异常,它有 29 个缩放参数和 94,000 行数据。
提前致谢,
这与H2O无关
这里的线索是消息"PBS: job killed"。
此处的少量 Internet 搜索表明您正在以某种方式使用 PBS 调度程序 (https://en.wikipedia.org/wiki/Portable_Batch_System),这会扼杀您的工作。 (我以前从未真正见过有人使用 PBS,但根据以上信息,这一切似乎都很有可能。)
由于 PBS 告诉您您的限制是 32 个内核,我建议您尝试指定一个小于该值的值。也许 h2o.init(nthreads=30)
PBS 不会再杀死你的进程。