在使用 GLOVE 等预训练 word2vec 训练 NN 模型时,词汇表是否应限制为训练集词汇表?
Should the vocabulary be restricted to the training-set vocabulary when training an NN model with pretrained word2vec like GLOVE?
我想使用来自 GLOVE 的预训练向量在我的神经网络中的嵌入层使用词嵌入。构建 word2index 字典时是否需要将词汇限制在训练集中?
这不会导致有限的不可泛化模型吗?
考虑 GLOVE 的所有词汇是推荐的做法吗?
是的,最好限制你的词汇量。因为预训练的嵌入(比如 GLOVE)中有很多不是很有用的词(Word2Vec 也是如此),而且词汇量越大,你需要的 RAM 就越多,还有其他问题。
Select 来自您所有数据的令牌。如果您的数据足够大,它不会导致有限的不可泛化模型。如果您认为您的数据没有足够多的标记,那么您应该知道两件事:
- 你的数据不够好,还得再收集
- 你的模型不能很好地生成它在训练中没有看到的标记!所以在你的嵌入中有很多未使用的词是没有意义的,最好收集更多的数据来覆盖这些词。
我有一个答案来展示如何 select 来自预训练模型的一小部分词向量
我想使用来自 GLOVE 的预训练向量在我的神经网络中的嵌入层使用词嵌入。构建 word2index 字典时是否需要将词汇限制在训练集中? 这不会导致有限的不可泛化模型吗? 考虑 GLOVE 的所有词汇是推荐的做法吗?
是的,最好限制你的词汇量。因为预训练的嵌入(比如 GLOVE)中有很多不是很有用的词(Word2Vec 也是如此),而且词汇量越大,你需要的 RAM 就越多,还有其他问题。
Select 来自您所有数据的令牌。如果您的数据足够大,它不会导致有限的不可泛化模型。如果您认为您的数据没有足够多的标记,那么您应该知道两件事:
- 你的数据不够好,还得再收集
- 你的模型不能很好地生成它在训练中没有看到的标记!所以在你的嵌入中有很多未使用的词是没有意义的,最好收集更多的数据来覆盖这些词。
我有一个答案来展示如何 select 来自预训练模型的一小部分词向量