如何保留像 StratifiedKfold 这样的生成器的副本

Question

我在笔记本上的两个不同单元格中执行以下命令：

skf = StratifiedKFold(n_splits = 4).split(X,Y)
regrl = LinearRegression() mse = np.mean(cross_val_score(regrl, X, Y, cv = skf, scoring = 'mean_squared_error'))

第一次执行 cross_val_score 没有错误，但第二次尝试 return :

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-48-de4073ce654d> in <module>
      2 
      3 
----> 4     mse = np.mean(cross_val_score(regrl, X, Y, cv = skf, scoring = 'mean_squared_error'))
      5 mse

/opt/conda/lib/python3.6/site-packages/sklearn/model_selection/_validation.py in cross_val_score(estimator, X, y, groups, scoring, cv, n_jobs, verbose, fit_params, pre_dispatch)
    340                                 n_jobs=n_jobs, verbose=verbose,
    341                                 fit_params=fit_params,
--> 342                                 pre_dispatch=pre_dispatch)
    343     return cv_results['test_score']
    344 

/opt/conda/lib/python3.6/site-packages/sklearn/model_selection/_validation.py in cross_validate(estimator, X, y, groups, scoring, cv, n_jobs, verbose, fit_params, pre_dispatch, return_train_score)
    210         train_scores = _aggregate_score_dicts(train_scores)
    211     else:
--> 212         test_scores, fit_times, score_times = zip(*scores)
    213     test_scores = _aggregate_score_dicts(test_scores)
    214 

ValueError: not enough values to unpack (expected 3, got 0)

如果我再次执行：skf = StratifiedKFold(n_splits = 4).split(X,Y) 错误不是 returned，生成器 skf 在使用后变空。所以我会知道如何获得生成器的副本。

因为我需要在一个循环中尝试很多模型，但目前我必须为每个迭代刷新 skf，这会花费太多时间。

Answer 1

而不是这样做：

skf = StratifiedKFold(n_splits = 4).split(X,Y)
cross_val_score(regrl, X, Y, cv = skf, ...)

其中 skf 是您观察到的生成器，并且只会执行一次。

你可以这样做：

from sklearn.model_selection import StratifiedKFold, cross_val_score

skf = StratifiedKFold(n_splits = 4)
cross_val_score(regrl, X, Y, cv = skf, ...)

这里 skf 是一个 StratifiedKFold 对象，而不是像您的代码那样的生成器。

cross_val_score（在 scikit-learn > 0.18 的较新版本中，来自 model_selection 包）可以使用提供的数据 (X, y) 在折叠迭代器上自动调用 split() ) 需要时。所以你不必明确地执行它。

如何保留像 StratifiedKfold 这样的生成器的副本

How to keep a copy of generator like StratifierKfold

python-3.x

scikit-learn

cross-validation