导航超参数

Navigating hyper-parameters

我只是想知道是否有人可以提供一个很好的资源让我阅读我应该如何根据我的问题的复杂性来选择求解器的超参数。

基本上,据我所知,很多人认为在设置和修改这些参数时他们是 "shooting around in the dark",而根据特定 problem/data 复杂性选择参数的系统或基准让我望而却步.

如果您愿意解释您自己的方法或只是对您的来源提供评论,我们将不胜感激。

我认为这是主要参考:

http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

另请参阅第 5 章: http://neuralnetworksanddeeplearning.com/

由于我们所说的超参数与反向传播有关,这是一种基于梯度的方法,我相信主要参考是Y. Bengio, along with the more classic Lecun et al..

可通过三种主要方法找出超参数的最佳值。前两个在我链接的第一篇论文中有很好的解释。

  • 手动搜索。研究人员通过反复试验选择最优值。
  • 自动搜索。研究人员依靠自动化程序来加快搜索速度。
  • 贝叶斯优化。您可以找到介绍它的视频 here