如何 运行 h2o 分别为每个类别建模?
How to run h2o models for each category separately?
对于每个类别,我都需要拟合 h2o 模型。
Category a b
<chr> <dbl> <dbl>
1 aa 36.6 1.4
2 aa 5.30 0
3 bb 4.62 1.2
4 bb 3.71 1.5
5 cc 3.41 12
... ... ... ...
是否可以在不按类别拆分数据集和 运行 在循环中对每个类别进行培训的情况下做到这一点。可以用 dplyr 做吗?
我没有用 h2o
做到这一点,但也许它可以帮助你:
iris%>%
group_by(Species)%>%
nest()%>%
mutate(fit = map(data, ~ lm(Petal.Width ~ Petal.Length, data = .x)))
# A tibble: 3 x 3
Species data fit
<fct> <list> <list>
1 setosa <tibble [50 x 4]> <S3: lm>
2 versicolor <tibble [50 x 4]> <S3: lm>
3 virginica <tibble [50 x 4]> <S3: lm>
For each category I need to fit h2o model.
Is it possible to do it without splitting dataset on categories...
没有
您需要循环,并为枚举中的每个级别构建一个模型(使用 h2o 术语)。 (要获取类别中所有值的列表,请参阅 http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/frame.html#h2o.frame.H2OFrame.levels )
如果您的要求比较模糊,那么您可以使用单一模型。 IE。如果您认为 "chr" 类别是预测其他值最有用的信息,您可以构建一个模型(例如随机森林),如果您是对的,那将是顶级在每一棵树上分裂,你会有效地得到你想要的。
但如果这是为了学术报告,或出于监管原因,并且您需要显示按 "chr" 列拆分的预测,那么您别无选择。
对于每个类别,我都需要拟合 h2o 模型。
Category a b
<chr> <dbl> <dbl>
1 aa 36.6 1.4
2 aa 5.30 0
3 bb 4.62 1.2
4 bb 3.71 1.5
5 cc 3.41 12
... ... ... ...
是否可以在不按类别拆分数据集和 运行 在循环中对每个类别进行培训的情况下做到这一点。可以用 dplyr 做吗?
我没有用 h2o
做到这一点,但也许它可以帮助你:
iris%>%
group_by(Species)%>%
nest()%>%
mutate(fit = map(data, ~ lm(Petal.Width ~ Petal.Length, data = .x)))
# A tibble: 3 x 3
Species data fit
<fct> <list> <list>
1 setosa <tibble [50 x 4]> <S3: lm>
2 versicolor <tibble [50 x 4]> <S3: lm>
3 virginica <tibble [50 x 4]> <S3: lm>
For each category I need to fit h2o model. Is it possible to do it without splitting dataset on categories...
没有
您需要循环,并为枚举中的每个级别构建一个模型(使用 h2o 术语)。 (要获取类别中所有值的列表,请参阅 http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/frame.html#h2o.frame.H2OFrame.levels )
如果您的要求比较模糊,那么您可以使用单一模型。 IE。如果您认为 "chr" 类别是预测其他值最有用的信息,您可以构建一个模型(例如随机森林),如果您是对的,那将是顶级在每一棵树上分裂,你会有效地得到你想要的。
但如果这是为了学术报告,或出于监管原因,并且您需要显示按 "chr" 列拆分的预测,那么您别无选择。