如何从 Scikit-Learn 中的详细输出估计 GridSearchCV 的进度?
How to estimate the progress of a GridSearchCV from verbose output in Scikit-Learn?
现在我运行 是一个非常激进的网格搜索。我有 n=135 samples
并且我是 运行 23 folds
使用自定义交叉验证 train/test 列表。我有我的 verbose=2
。
下面是我运行:
param_test = {"loss":["deviance"],
'learning_rate':[0.01, 0.025, 0.05, 0.075, 0.1, 0.15, 0.2],
"min_samples_split": np.linspace(0.1, 0.5, 12),
"min_samples_leaf": np.linspace(0.1, 0.5, 12),
"max_depth":[3,5,8],
"max_features":["log2","sqrt"],
"min_impurity_split":[5e-6, 1e-7, 5e-7],
"criterion": ["friedman_mse", "mae"],
"subsample":[0.5, 0.618, 0.8, 0.85, 0.9, 0.95, 1.0],
"n_estimators":[10]}
Mod_gsearch = GridSearchCV(estimator = GradientBoostingClassifier(),
param_grid = param_test, scoring="accuracy",n_jobs=32, iid=False, cv=cv_indices, verbose=2)
我查看了 stdout
中的详细输出:
$head gridsearch.o8475533
Fitting 23 folds for each of 254016 candidates, totalling 5842368 fits
基于此,看起来有 5842368
个使用我的网格参数的交叉验证对排列。
$ grep -c "[CV]" gridsearch.o8475533
7047332
看起来到目前为止已经进行了大约 700 万次交叉验证,但这比 5842368
总适合度要多...
7047332/5842368 = 1.2062458236
然后当我查看 stderr
文件时:
$ cat ./gridsearch.e8475533
[Parallel(n_jobs=32)]: Done 132 tasks | elapsed: 1.2s
[Parallel(n_jobs=32)]: Done 538 tasks | elapsed: 2.8s
[Parallel(n_jobs=32)]: Done 1104 tasks | elapsed: 4.8s
[Parallel(n_jobs=32)]: Done 1834 tasks | elapsed: 7.9s
[Parallel(n_jobs=32)]: Done 2724 tasks | elapsed: 11.6s
...
[Parallel(n_jobs=32)]: Done 3396203 tasks | elapsed: 250.2min
[Parallel(n_jobs=32)]: Done 3420769 tasks | elapsed: 276.5min
[Parallel(n_jobs=32)]: Done 3447309 tasks | elapsed: 279.3min
[Parallel(n_jobs=32)]: Done 3484240 tasks | elapsed: 282.3min
[Parallel(n_jobs=32)]: Done 3523550 tasks | elapsed: 285.3min
我的目标:
我如何知道我的网格搜索相对于它可能花费的总时间的进度?
我困惑的是:
stdout
中的 [CV]
行、stdout
中的总匹配数和 stderr
中的任务之间的关系是什么?
数学很简单,但乍一看有点误导:
当每个任务开始时,记录机制会产生一个'[CV] ...'行到stdout
,注意starting
执行和任务[=12=之后] - 另一行添加了特定任务花费的时间(在行尾)。
此外,在一些时间间隔内,日志记录机制将进度条写入 stderr
(或者如果您将 verbose
设置为 >50 到 stdout
)指示总任务(适合)和当前总花费时间中完成任务的数量,例如:
[Parallel(n_jobs=32)]: Done 2724 tasks | elapsed: 11.6s
对于你的情况,你有 5842368
总适合度,即任务。
您计算了 7047332
个“[CV] ...”,即 around 7047332/2 = 3523666
已完成的任务,进度条显示 exactly
完成了多少任务 - 3523550(大约 - 因为一些任务可以开始,但不会在计数时结束)。
现在我运行 是一个非常激进的网格搜索。我有 n=135 samples
并且我是 运行 23 folds
使用自定义交叉验证 train/test 列表。我有我的 verbose=2
。
下面是我运行:
param_test = {"loss":["deviance"],
'learning_rate':[0.01, 0.025, 0.05, 0.075, 0.1, 0.15, 0.2],
"min_samples_split": np.linspace(0.1, 0.5, 12),
"min_samples_leaf": np.linspace(0.1, 0.5, 12),
"max_depth":[3,5,8],
"max_features":["log2","sqrt"],
"min_impurity_split":[5e-6, 1e-7, 5e-7],
"criterion": ["friedman_mse", "mae"],
"subsample":[0.5, 0.618, 0.8, 0.85, 0.9, 0.95, 1.0],
"n_estimators":[10]}
Mod_gsearch = GridSearchCV(estimator = GradientBoostingClassifier(),
param_grid = param_test, scoring="accuracy",n_jobs=32, iid=False, cv=cv_indices, verbose=2)
我查看了 stdout
中的详细输出:
$head gridsearch.o8475533
Fitting 23 folds for each of 254016 candidates, totalling 5842368 fits
基于此,看起来有 5842368
个使用我的网格参数的交叉验证对排列。
$ grep -c "[CV]" gridsearch.o8475533
7047332
看起来到目前为止已经进行了大约 700 万次交叉验证,但这比 5842368
总适合度要多...
7047332/5842368 = 1.2062458236
然后当我查看 stderr
文件时:
$ cat ./gridsearch.e8475533
[Parallel(n_jobs=32)]: Done 132 tasks | elapsed: 1.2s
[Parallel(n_jobs=32)]: Done 538 tasks | elapsed: 2.8s
[Parallel(n_jobs=32)]: Done 1104 tasks | elapsed: 4.8s
[Parallel(n_jobs=32)]: Done 1834 tasks | elapsed: 7.9s
[Parallel(n_jobs=32)]: Done 2724 tasks | elapsed: 11.6s
...
[Parallel(n_jobs=32)]: Done 3396203 tasks | elapsed: 250.2min
[Parallel(n_jobs=32)]: Done 3420769 tasks | elapsed: 276.5min
[Parallel(n_jobs=32)]: Done 3447309 tasks | elapsed: 279.3min
[Parallel(n_jobs=32)]: Done 3484240 tasks | elapsed: 282.3min
[Parallel(n_jobs=32)]: Done 3523550 tasks | elapsed: 285.3min
我的目标:
我如何知道我的网格搜索相对于它可能花费的总时间的进度?
我困惑的是:
stdout
中的 [CV]
行、stdout
中的总匹配数和 stderr
中的任务之间的关系是什么?
数学很简单,但乍一看有点误导:
当每个任务开始时,记录机制会产生一个'[CV] ...'行到
stdout
,注意starting
执行和任务[=12=之后] - 另一行添加了特定任务花费的时间(在行尾)。此外,在一些时间间隔内,日志记录机制将进度条写入
stderr
(或者如果您将verbose
设置为 >50 到stdout
)指示总任务(适合)和当前总花费时间中完成任务的数量,例如:[Parallel(n_jobs=32)]: Done 2724 tasks | elapsed: 11.6s
对于你的情况,你有 5842368
总适合度,即任务。
您计算了 7047332
个“[CV] ...”,即 around 7047332/2 = 3523666
已完成的任务,进度条显示 exactly
完成了多少任务 - 3523550(大约 - 因为一些任务可以开始,但不会在计数时结束)。