直通估计器(STE)的概念
The concept of straight through estimator (STE)
我在许多与神经网络相关的论文中看到了直通估计器 (STE),例如this and this。但我无法理解这个概念。我想知道是否有人可以解释 STE 或向我推荐一个简单的资源?
直通估计器是一种为神经网络中的阈值操作估计梯度的方法。阈值可以像下面的函数一样简单,
正如我们所见,该阈值函数的导数将为 0,并且在反向传播期间,网络将不会学习任何东西,因为它获得 0 梯度并且权重不会得到更新。
直通估计器的概念是将传入梯度设置为等于其传出梯度的阈值函数,而忽略阈值函数本身的导数。在您引用的 this 论文中,结果(图 2)显示这表现良好。
我在许多与神经网络相关的论文中看到了直通估计器 (STE),例如this and this。但我无法理解这个概念。我想知道是否有人可以解释 STE 或向我推荐一个简单的资源?
直通估计器是一种为神经网络中的阈值操作估计梯度的方法。阈值可以像下面的函数一样简单,
正如我们所见,该阈值函数的导数将为 0,并且在反向传播期间,网络将不会学习任何东西,因为它获得 0 梯度并且权重不会得到更新。
直通估计器的概念是将传入梯度设置为等于其传出梯度的阈值函数,而忽略阈值函数本身的导数。在您引用的 this 论文中,结果(图 2)显示这表现良好。