如何在大数据中进行超参数优化?

how to do hyperparameter optimization in large data?

我几乎完成了我的时间序列模型,收集了足够的数据,现在我陷入了超参数优化。

经过大量谷歌搜索后,我发现了名为 ultraopt 的新的好库,但问题是我应该从我的总数据 (~150 GB) 中使用多少数据片段来进行超参数调整。我想尝试很多算法和组合,有没有更快更简单的方法?

是否涉及任何数学,比如, 我的数据 = 100%大小

使用 5% 的 mydatasize 进行超参数优化,

优化的超参数 *or+ 或剩余 95% 数据大小的东西 #something like this

获得与一次用于优化的完整数据相似的结果。这些有捷径吗?

我正在使用 Python 3.7, CPU:AMD ryzen5 3400g, 显卡:AMD Vega 11, 内存:16GB

超参数调整通常在训练-验证-测试拆分的验证集上完成,其中每个拆分将分别包含整个数据集的 70%、10% 和 20%。作为基准,可以使用随机搜索,而 Bayesian optimization with Gaussian processes has been shown to be more compute efficient. scikit-optimize 是一个很好的包。

一个很好的 python 超参数调整库是 keras tuner. You can utilize different tuners in this library, but for the large data, as you've mentioned, Hyperband Optimization 可以是最先进的和合适的库。