拆分为训练和测试时获取 H2O 数据帧的行索引
Get row indexes of H2O dataframe when split into train and test
我是 H2O 的新手。到目前为止,对于训练测试拆分,我使用了 sklearn 的 StratifiedKFold()。
skf = StratifiedKFold(n_splits=n, random_state=None, shuffle=False)
for train_index, test_index in skf.split(X, y):
X_train, X_test = X[train_index], X[test_index]
y_train, y_test = y[train_index], y[test_index]
我需要这些索引以供稍后进一步处理。
在 H2O 中,我不知道如何在进行交叉验证时获取索引。根据我通过视频和博客收集的信息,这就是我们在 H2O 中制作 CV 的方式:
gbm_model = H2OGradientBoostingEstimator(model_id = 'gbm_model',nfolds=5)
如何获取每个折叠的训练和测试索引?
此外,如何在进行简单拆分时获取索引?
data_split = data.split_frame(ratios=[0.8],seed = 1234)
train_df = data_split[0]
test_df = data_split[1]
如何获取进入训练和测试的索引?
您可以使用 stratified_kfold_column(n_folds=3, seed=-1)
或 stratified_split(test_frac=0.2, seed=-1)
来创建一个包含拆分的列,您可以将其用于子集以在以后拆分。
在 docs
中查看有关这些的更多信息
我是 H2O 的新手。到目前为止,对于训练测试拆分,我使用了 sklearn 的 StratifiedKFold()。
skf = StratifiedKFold(n_splits=n, random_state=None, shuffle=False)
for train_index, test_index in skf.split(X, y):
X_train, X_test = X[train_index], X[test_index]
y_train, y_test = y[train_index], y[test_index]
我需要这些索引以供稍后进一步处理。
在 H2O 中,我不知道如何在进行交叉验证时获取索引。根据我通过视频和博客收集的信息,这就是我们在 H2O 中制作 CV 的方式:
gbm_model = H2OGradientBoostingEstimator(model_id = 'gbm_model',nfolds=5)
如何获取每个折叠的训练和测试索引?
此外,如何在进行简单拆分时获取索引?
data_split = data.split_frame(ratios=[0.8],seed = 1234)
train_df = data_split[0]
test_df = data_split[1]
如何获取进入训练和测试的索引?
您可以使用 stratified_kfold_column(n_folds=3, seed=-1)
或 stratified_split(test_frac=0.2, seed=-1)
来创建一个包含拆分的列,您可以将其用于子集以在以后拆分。
在 docs
中查看有关这些的更多信息