CNN 中的反向传播如何用于文本分类中的预训练嵌入
How does back propagation in CNN works for pre-trained embedding in text classification
损失函数如何在预训练的 word2vec 嵌入的情况下工作,因为在 training.Then 期间不更新权重 training.Then 向后传递如何工作以及它为预测更新什么?
损失是概率输出和实际类的计算,这个计算不依赖于任何后续层的训练状态。我所说的状态是指 trainable==True 或 trainable==False.
仅当状态为trainable==True时,损失的反向传播结合学习率调整层的权重。如果不可训练层之间存在可训练层,错误仍然可以通过这些层。模型中 "trainable" 的任何层都将在每个训练步骤后更新。
当使用 Word2Vec 时,权重被导入到嵌入层中,并且多次 "frozen" 以便在训练其余参数时不更新。然而,在这个过程即将结束时,有时解冻这些权重可以获得更好的结果。
损失函数如何在预训练的 word2vec 嵌入的情况下工作,因为在 training.Then 期间不更新权重 training.Then 向后传递如何工作以及它为预测更新什么?
损失是概率输出和实际类的计算,这个计算不依赖于任何后续层的训练状态。我所说的状态是指 trainable==True 或 trainable==False.
仅当状态为trainable==True时,损失的反向传播结合学习率调整层的权重。如果不可训练层之间存在可训练层,错误仍然可以通过这些层。模型中 "trainable" 的任何层都将在每个训练步骤后更新。
当使用 Word2Vec 时,权重被导入到嵌入层中,并且多次 "frozen" 以便在训练其余参数时不更新。然而,在这个过程即将结束时,有时解冻这些权重可以获得更好的结果。