具有 'relu' 的 LSTM 'recurrent_dropout' 产生 NaN
LSTM 'recurrent_dropout' with 'relu' yields NaNs
任何非零值 recurrent_dropout
产生 NaN 损失和权重;后者是 0 或 NaN。发生在堆叠的、浅的、stateful
、return_sequences
= any 和 & w/o Bidirectional()
、activation='relu'
、loss='binary_crossentropy'
上。 NaN 出现在几个批次中。
任何修复?感谢帮助。
已尝试排除故障:
recurrent_dropout=0.2,0.1,0.01,1e-6
kernel_constraint=maxnorm(0.5,axis=0)
recurrent_constraint=maxnorm(0.5,axis=0)
clipnorm=50
(经验确定),那达慕优化器
activation='tanh'
- 没有 NaN,权重稳定,最多测试 10 个批次
lr=2e-6,2e-5
- 没有 NaN,权重稳定,最多测试 10 批
lr=5e-5
- 没有 NaN,权重稳定,3 个批次 - 第 4 个批次出现 NaN
batch_shape=(32,48,16)
- 2 批次损失较大,第 3 批次为 NaNs
注意:batch_shape=(32,672,16)
,每批 train_on_batch
调用 17 次
环境:
- Keras 2.2.4(TensorFlow 后端),Python 3.7,通过 Anaconda 的 Spyder 3.3.7
- GTX 1070 6GB,i7-7700HQ,12GB 内存,Win-10.0.17134 x64
- CuDNN 10+,最新的 Nvidia 驱动器
附加信息:
模型分歧是自发的,在不同的训练更新时发生 即使使用固定种子 - Numpy、Random 和 TensorFlow 随机种子。此外,当第一次发散时,LSTM 层权重都是正常的 - 稍后才变为 NaN。
以下按顺序排列:(1) 输入 LSTM
; (2) LSTM
输出; (3) Dense(1,'sigmoid')
个输出——三个是连续的,每个之间有 Dropout(0.5)
个。前面的 (1) 是 Conv1D
层。右:LSTM 权重。 "BEFORE" = 之前有 1 次列车更新; "之后 =
之后有 1 次列车更新
分歧前:
AT背离:
## LSTM outputs, flattened, stats
(mean,std) = (inf,nan)
(min,max) = (0.00e+00,inf)
(abs_min,abs_max) = (0.00e+00,inf)
分歧之后:
## Recurrent Gates Weights:
array([[nan, nan, nan, ..., nan, nan, nan],
[ 0., 0., -0., ..., -0., 0., 0.],
[ 0., -0., -0., ..., -0., 0., 0.],
...,
[nan, nan, nan, ..., nan, nan, nan],
[ 0., 0., -0., ..., -0., 0., -0.],
[ 0., 0., -0., ..., -0., 0., 0.]], dtype=float32)
## Dense Sigmoid Outputs:
array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]], dtype=float32)
最小可复制示例:
from keras.layers import Input,Dense,LSTM,Dropout
from keras.models import Model
from keras.optimizers import Nadam
from keras.constraints import MaxNorm as maxnorm
import numpy as np
ipt = Input(batch_shape=(32,672,16))
x = LSTM(512, activation='relu', return_sequences=False,
recurrent_dropout=0.3,
kernel_constraint =maxnorm(0.5, axis=0),
recurrent_constraint=maxnorm(0.5, axis=0))(ipt)
out = Dense(1, activation='sigmoid')(x)
model = Model(ipt,out)
optimizer = Nadam(lr=4e-4, clipnorm=1)
model.compile(optimizer=optimizer,loss='binary_crossentropy')
for train_update,_ in enumerate(range(100)):
x = np.random.randn(32,672,16)
y = np.array([1]*5 + [0]*27)
np.random.shuffle(y)
loss = model.train_on_batch(x,y)
print(train_update+1,loss,np.sum(y))
观察:以下加速发散:
- 更高
units
(LSTM)
- 更高 层数 (LSTM)
- 更高
lr
<<当<=1e-4
时没有发散,测试了多达400列火车
- Less
'1'
标签<<与下面的y
没有分歧,即使与lr=1e-3
;测试了多达 400 列火车
y = np.random.randint(0,2,32) # makes more '1' labels
更新:在TF2中未修复;也可以使用 from tensorflow.keras
导入重现。
深入研究 LSTM 公式并深入挖掘源代码,一切都变得crystal清楚了。
判决:recurrent_dropout
与此无关;某件事正在 none 期望的地方循环播放。
真正的罪魁祸首:activation
参数现在 'relu'
应用于 循环转换 -与几乎所有将其显示为无害的教程相反 'tanh'
.
即,activation
而不是 仅用于隐藏到输出的转换 - source code;它直接在计算两个循环状态、单元格和隐藏状态时运行:
c = f * c_tm1 + i * self.activation(x_c + K.dot(h_tm1_c, self.recurrent_kernel_c))
h = o * self.activation(c)
解决方案:
- 将
BatchNormalization
应用于LSTM的输入,尤其是如果前一层的输出是无界的(ReLU、ELU等)
- 如果前一层的激活有严格的界限(例如 tanh、sigmoid),在 激活之前应用 BN (使用
activation=None
,然后是 BN,然后是 Activation
层)
- 使用
activation='selu'
;更稳定,但仍然可以发散
- 使用较低的
lr
- 应用渐变剪裁
- 使用更少的时间步
更多答案,对一些剩余问题:
- 为什么
recurrent_dropout
被怀疑? 不严谨的测试设置;直到现在我才专注于在没有它的情况下强制发散。然而,它确实有时会加速发散——这可以通过它将非 relu 贡献归零来解释,否则会抵消乘法强化。
- 为什么非零均值输入会加速发散? 加法对称性;非零均值分布是不对称的,以一个符号为主 - 促进大的预激活,因此大的 ReLU。
- 为什么训练可以在低 lr 的情况下稳定进行数百次迭代? 极端激活通过大误差导致大梯度;低 lr,这意味着调整权重以防止此类激活 - 而高 lr 跳得太远太快。
- 为什么堆叠的 LSTM 发散得更快? 除了向自身提供 ReLU 之外,LSTM 还向下一个 LSTM 提供数据,后者随后向自己提供 ReLU'd ReLU's --> fireworks。
2020 年 1 月 22 日更新:recurrent_dropout
实际上可能是一个促成因素,因为它利用了 inverted dropout ,在训练期间扩大隐藏的转换,在许多时间步上缓解不同的行为。 Git 关于这个的问题 here
任何非零值 recurrent_dropout
产生 NaN 损失和权重;后者是 0 或 NaN。发生在堆叠的、浅的、stateful
、return_sequences
= any 和 & w/o Bidirectional()
、activation='relu'
、loss='binary_crossentropy'
上。 NaN 出现在几个批次中。
任何修复?感谢帮助。
已尝试排除故障:
recurrent_dropout=0.2,0.1,0.01,1e-6
kernel_constraint=maxnorm(0.5,axis=0)
recurrent_constraint=maxnorm(0.5,axis=0)
clipnorm=50
(经验确定),那达慕优化器activation='tanh'
- 没有 NaN,权重稳定,最多测试 10 个批次lr=2e-6,2e-5
- 没有 NaN,权重稳定,最多测试 10 批lr=5e-5
- 没有 NaN,权重稳定,3 个批次 - 第 4 个批次出现 NaNbatch_shape=(32,48,16)
- 2 批次损失较大,第 3 批次为 NaNs
注意:batch_shape=(32,672,16)
,每批 train_on_batch
调用 17 次
环境:
- Keras 2.2.4(TensorFlow 后端),Python 3.7,通过 Anaconda 的 Spyder 3.3.7
- GTX 1070 6GB,i7-7700HQ,12GB 内存,Win-10.0.17134 x64
- CuDNN 10+,最新的 Nvidia 驱动器
附加信息:
模型分歧是自发的,在不同的训练更新时发生 即使使用固定种子 - Numpy、Random 和 TensorFlow 随机种子。此外,当第一次发散时,LSTM 层权重都是正常的 - 稍后才变为 NaN。
以下按顺序排列:(1) 输入 LSTM
; (2) LSTM
输出; (3) Dense(1,'sigmoid')
个输出——三个是连续的,每个之间有 Dropout(0.5)
个。前面的 (1) 是 Conv1D
层。右:LSTM 权重。 "BEFORE" = 之前有 1 次列车更新; "之后 =
分歧前:
AT背离:
## LSTM outputs, flattened, stats
(mean,std) = (inf,nan)
(min,max) = (0.00e+00,inf)
(abs_min,abs_max) = (0.00e+00,inf)
分歧之后:
## Recurrent Gates Weights:
array([[nan, nan, nan, ..., nan, nan, nan],
[ 0., 0., -0., ..., -0., 0., 0.],
[ 0., -0., -0., ..., -0., 0., 0.],
...,
[nan, nan, nan, ..., nan, nan, nan],
[ 0., 0., -0., ..., -0., 0., -0.],
[ 0., 0., -0., ..., -0., 0., 0.]], dtype=float32)
## Dense Sigmoid Outputs:
array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]], dtype=float32)
最小可复制示例:
from keras.layers import Input,Dense,LSTM,Dropout
from keras.models import Model
from keras.optimizers import Nadam
from keras.constraints import MaxNorm as maxnorm
import numpy as np
ipt = Input(batch_shape=(32,672,16))
x = LSTM(512, activation='relu', return_sequences=False,
recurrent_dropout=0.3,
kernel_constraint =maxnorm(0.5, axis=0),
recurrent_constraint=maxnorm(0.5, axis=0))(ipt)
out = Dense(1, activation='sigmoid')(x)
model = Model(ipt,out)
optimizer = Nadam(lr=4e-4, clipnorm=1)
model.compile(optimizer=optimizer,loss='binary_crossentropy')
for train_update,_ in enumerate(range(100)):
x = np.random.randn(32,672,16)
y = np.array([1]*5 + [0]*27)
np.random.shuffle(y)
loss = model.train_on_batch(x,y)
print(train_update+1,loss,np.sum(y))
观察:以下加速发散:
- 更高
units
(LSTM) - 更高 层数 (LSTM)
- 更高
lr
<<当<=1e-4
时没有发散,测试了多达400列火车 - Less
'1'
标签<<与下面的y
没有分歧,即使与lr=1e-3
;测试了多达 400 列火车
y = np.random.randint(0,2,32) # makes more '1' labels
更新:在TF2中未修复;也可以使用 from tensorflow.keras
导入重现。
深入研究 LSTM 公式并深入挖掘源代码,一切都变得crystal清楚了。
判决:recurrent_dropout
与此无关;某件事正在 none 期望的地方循环播放。
真正的罪魁祸首:activation
参数现在 'relu'
应用于 循环转换 -与几乎所有将其显示为无害的教程相反 'tanh'
.
即,activation
而不是 仅用于隐藏到输出的转换 - source code;它直接在计算两个循环状态、单元格和隐藏状态时运行:
c = f * c_tm1 + i * self.activation(x_c + K.dot(h_tm1_c, self.recurrent_kernel_c))
h = o * self.activation(c)
解决方案:
- 将
BatchNormalization
应用于LSTM的输入,尤其是如果前一层的输出是无界的(ReLU、ELU等)- 如果前一层的激活有严格的界限(例如 tanh、sigmoid),在 激活之前应用 BN (使用
activation=None
,然后是 BN,然后是Activation
层)
- 如果前一层的激活有严格的界限(例如 tanh、sigmoid),在 激活之前应用 BN (使用
- 使用
activation='selu'
;更稳定,但仍然可以发散 - 使用较低的
lr
- 应用渐变剪裁
- 使用更少的时间步
更多答案,对一些剩余问题:
- 为什么
recurrent_dropout
被怀疑? 不严谨的测试设置;直到现在我才专注于在没有它的情况下强制发散。然而,它确实有时会加速发散——这可以通过它将非 relu 贡献归零来解释,否则会抵消乘法强化。 - 为什么非零均值输入会加速发散? 加法对称性;非零均值分布是不对称的,以一个符号为主 - 促进大的预激活,因此大的 ReLU。
- 为什么训练可以在低 lr 的情况下稳定进行数百次迭代? 极端激活通过大误差导致大梯度;低 lr,这意味着调整权重以防止此类激活 - 而高 lr 跳得太远太快。
- 为什么堆叠的 LSTM 发散得更快? 除了向自身提供 ReLU 之外,LSTM 还向下一个 LSTM 提供数据,后者随后向自己提供 ReLU'd ReLU's --> fireworks。
2020 年 1 月 22 日更新:recurrent_dropout
实际上可能是一个促成因素,因为它利用了 inverted dropout ,在训练期间扩大隐藏的转换,在许多时间步上缓解不同的行为。 Git 关于这个的问题 here