如何在大数据中进行超参数优化？

how to do hyperparameter optimization in large data?

我几乎完成了我的时间序列模型，收集了足够的数据，现在我陷入了超参数优化。

经过大量谷歌搜索后，我发现了名为 ultraopt 的新的好库，但问题是我应该从我的总数据 (~150 GB) 中使用多少数据片段来进行超参数调整。我想尝试很多算法和组合，有没有更快更简单的方法？

或

是否涉及任何数学，比如，我的数据 = 100%大小

使用 5% 的 mydatasize 进行超参数优化，

优化的超参数 *or+ 或剩余 95% 数据大小的东西 #something like this

获得与一次用于优化的完整数据相似的结果。这些有捷径吗？

我正在使用 Python 3.7， CPU：AMD ryzen5 3400g，显卡：AMD Vega 11，内存：16GB

超参数调整通常在训练-验证-测试拆分的验证集上完成，其中每个拆分将分别包含整个数据集的 70%、10% 和 20%。作为基准，可以使用随机搜索，而 Bayesian optimization with Gaussian processes has been shown to be more compute efficient. scikit-optimize 是一个很好的包。

一个很好的 python 超参数调整库是 keras tuner. You can utilize different tuners in this library, but for the large data, as you've mentioned, Hyperband Optimization 可以是最先进的和合适的库。

如何在大数据中进行超参数优化？

how to do hyperparameter optimization in large data?

python

performance

machine-learning

large-data

hyperparameters