Tensorflow,Tensorflow的sparse_categorical_crossentropy中的from_logits = True or False是什么意思?
Tensorflow, what does from_logits = True or False mean in sparse_categorical_crossentropy of Tensorflow?
在 Tensorflow 2.0 中,
有一个损失函数叫做
tf.keras.losses.sparse_categorical_crossentropy(labels, targets, from_logits = False)
请问设置from_logits = True 或False 有什么区别?
我的猜测是,当传入值是 logits 时,你设置 from_logits = True,如果传入值是概率(由 softmax 等输出),那么你只需设置 from_logits = False(这是默认设置).
但是为什么呢?损失只是一些计算。为什么它的传入值需要不同?
我也在google的tensorflow教程中看到
https://www.tensorflow.org/alpha/tutorials/sequences/text_generation
它不会设置 from_logits = True 即使最后一层的传入值是 logits。
这是代码
@tf.function
def train_step(inp, target):
with tf.GradientTape() as tape:
predictions = model(inp)
loss = tf.reduce_mean(
tf.keras.losses.sparse_categorical_crossentropy(target, predictions))
grads = tape.gradient(loss, model.trainable_variables)
optimizer.apply_gradients(zip(grads, model.trainable_variables))
return loss
模型在哪里
model = tf.keras.Sequential([
tf.keras.layers.Embedding(vocab_size, embedding_dim,
batch_input_shape=[batch_size, None]),
tf.keras.layers.LSTM(rnn_units,
return_sequences=True,
stateful=True,
recurrent_initializer='glorot_uniform'),
tf.keras.layers.Dense(vocab_size)
])
没有最后一层softmax。
(此外,在本教程的另一部分中,它设置 from_logits = True)
那么,我把它设置为真与否并不重要吗?
提到的 post Deepak 有一些数学背景。
但为了简单起见,from_logits=True 表示交叉熵层的输入是正常的 tensor/logits,而如果 from_logits=False,则表示输入是概率,通常你应该在你的最后一层有一些 softmax 激活。
在 Tensorflow 2.0 中, 有一个损失函数叫做
tf.keras.losses.sparse_categorical_crossentropy(labels, targets, from_logits = False)
请问设置from_logits = True 或False 有什么区别? 我的猜测是,当传入值是 logits 时,你设置 from_logits = True,如果传入值是概率(由 softmax 等输出),那么你只需设置 from_logits = False(这是默认设置).
但是为什么呢?损失只是一些计算。为什么它的传入值需要不同? 我也在google的tensorflow教程中看到 https://www.tensorflow.org/alpha/tutorials/sequences/text_generation 它不会设置 from_logits = True 即使最后一层的传入值是 logits。 这是代码
@tf.function
def train_step(inp, target):
with tf.GradientTape() as tape:
predictions = model(inp)
loss = tf.reduce_mean(
tf.keras.losses.sparse_categorical_crossentropy(target, predictions))
grads = tape.gradient(loss, model.trainable_variables)
optimizer.apply_gradients(zip(grads, model.trainable_variables))
return loss
模型在哪里
model = tf.keras.Sequential([
tf.keras.layers.Embedding(vocab_size, embedding_dim,
batch_input_shape=[batch_size, None]),
tf.keras.layers.LSTM(rnn_units,
return_sequences=True,
stateful=True,
recurrent_initializer='glorot_uniform'),
tf.keras.layers.Dense(vocab_size)
])
没有最后一层softmax。 (此外,在本教程的另一部分中,它设置 from_logits = True)
那么,我把它设置为真与否并不重要吗?
提到的 post Deepak 有一些数学背景。
但为了简单起见,from_logits=True 表示交叉熵层的输入是正常的 tensor/logits,而如果 from_logits=False,则表示输入是概率,通常你应该在你的最后一层有一些 softmax 激活。