deeplearning4j:在线 Word2Vec 培训
deeplearning4j: online Word2Vec training
Word2vec
一个很棒的工具是 deeplearning4j。我设法在 tutorial 之后为语料库创建了一个向量。
现在的问题是如何用新句子更新模型,而不必从头开始重新构建它。
关于这个的一些想法,这个方法有帮助吗?
public void trainSentence(List<VocabWord> sentence){}
这会更新模型吗?如果是,如何准备要发送到该方法的句子?
是也不是。在文档 here 中,它提到:
Weights update after model serialization/deserialization was added.
That is, you can update model state with, say, 200GB of new text by
calling loadFullModel
, adding TokenizerFactory
and
SentenceIterator
to it, and calling fit()
on the restored model.
这意味着可以使用新语料库重新训练和更新模型权重。但词汇表中不会添加新词。
检查代码和 Javadoc here。
Word2vec
一个很棒的工具是 deeplearning4j。我设法在 tutorial 之后为语料库创建了一个向量。
现在的问题是如何用新句子更新模型,而不必从头开始重新构建它。
关于这个的一些想法,这个方法有帮助吗?
public void trainSentence(List<VocabWord> sentence){}
这会更新模型吗?如果是,如何准备要发送到该方法的句子?
是也不是。在文档 here 中,它提到:
Weights update after model serialization/deserialization was added. That is, you can update model state with, say, 200GB of new text by calling
loadFullModel
, addingTokenizerFactory
andSentenceIterator
to it, and callingfit()
on the restored model.
这意味着可以使用新语料库重新训练和更新模型权重。但词汇表中不会添加新词。
检查代码和 Javadoc here。