如何 运行 h2o 分别为每个类别建模?

How to run h2o models for each category separately?

对于每个类别,我都需要拟合 h2o 模型。

  Category            a             b
       <chr>         <dbl>         <dbl>
     1   aa           36.6          1.4
     2   aa           5.30          0   
     3   bb           4.62          1.2
     4   bb           3.71          1.5
     5   cc           3.41          12
    ... ...            ...         ...   

是否可以在不按类别拆分数据集和 运行 在循环中对每个类别进行培训的情况下做到这一点。可以用 dplyr 做吗?

我没有用 h2o 做到这一点,但也许它可以帮助你:

  iris%>%
   group_by(Species)%>%
   nest()%>%
   mutate(fit = map(data, ~ lm(Petal.Width ~ Petal.Length, data = .x)))
# A tibble: 3 x 3
  Species    data              fit     
  <fct>      <list>            <list>  
1 setosa     <tibble [50 x 4]> <S3: lm>
2 versicolor <tibble [50 x 4]> <S3: lm>
3 virginica  <tibble [50 x 4]> <S3: lm>

For each category I need to fit h2o model. Is it possible to do it without splitting dataset on categories...

没有

您需要循环,并为枚举中的每个级别构建一个模型(使用 h2o 术语)。 (要获取类别中所有值的列表,请参阅 http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/frame.html#h2o.frame.H2OFrame.levels

如果您的要求比较模糊,那么您可以使用单一模型。 IE。如果您认为 "chr" 类别是预测其他值最有用的信息,您可以构建一个模型(例如随机森林),如果您是对的,那将是顶级在每一棵树上分裂,你会有效地得到你想要的。

但如果这是为了学术报告,或出于监管原因,并且您需要显示按 "chr" 列拆分的预测,那么您别无选择。