拆分为训练和测试时获取 H2O 数据帧的行索引

Get row indexes of H2O dataframe when split into train and test

我是 H2O 的新手。到目前为止,对于训练测试拆分,我使用了 sklearn 的 StratifiedKFold()。

skf = StratifiedKFold(n_splits=n, random_state=None, shuffle=False)
for train_index, test_index in skf.split(X, y):               
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

我需要这些索引以供稍后进一步处理。

在 H2O 中,我不知道如何在进行交叉验证时获取索引。根据我通过视频和博客收集的信息,这就是我们在 H2O 中制作 CV 的方式:

gbm_model = H2OGradientBoostingEstimator(model_id = 'gbm_model',nfolds=5)

如何获取每个折叠的训练和测试索引?

此外,如何在进行简单拆分时获取索引?

data_split = data.split_frame(ratios=[0.8],seed = 1234)
train_df = data_split[0]
test_df = data_split[1]

如何获取进入训练和测试的索引?

您可以使用 stratified_kfold_column(n_folds=3, seed=-1)stratified_split(test_frac=0.2, seed=-1) 来创建一个包含拆分的列,您可以将其用于子集以在以后拆分。

docs

中查看有关这些的更多信息