不同的随机权重初始化导致不同的性能

Different random weight initialization leading to different performances

我正在大脑的 EM 数据集上训练 3D U-Net。 objective是对其中的神经元进行分割。在实验过程中,我注意到,网络的不同随机初始化会导致不同的性能。我根据 Union 的平均交集来评估性能,我观察到差异高达 5%。

我使用具有均匀分布的 xavier 初始化并使用 1e-4 的恒定学习率。

编辑:我在问如何避免这样的行为?

正如罗伯托所说,不同的随机初始化总是会导致不同的结果权重。这是很明显的,因为初始状态限制了可能的系统轨迹。

如果你阅读the paper introducing Xavier init,你会发现众所周知,随机初始化对结果性能有很大的初始化影响(有一篇论文表明数百次训练运行随机初始化都以不同的局部最小值结束,但我现在找不到它)。这就是我们使用像 Xavier init 这样的启发式方法的原因:与其他形式的随机初始化相比,它们往往会导致更好的局部最小值。

通常,一个人执行多次训练运行(例如 10 次)并采用最佳架构,在文章中,有时也会报告均值。