deeplearning4j:在线 Word2Vec 培训

deeplearning4j: online Word2Vec training

Word2vec 一个很棒的工具是 deeplearning4j。我设法在 tutorial 之后为语料库创建了一个向量。

现在的问题是如何用新句子更新模型,而不必从头开始重新构建它。

关于这个的一些想法,这个方法有帮助吗?

public void trainSentence(List<VocabWord> sentence){}

这会更新模型吗?如果是,如何准备要发送到该方法的句子?

是也不是。在文档 here 中,它提到:

Weights update after model serialization/deserialization was added. That is, you can update model state with, say, 200GB of new text by calling loadFullModel, adding TokenizerFactory and SentenceIterator to it, and calling fit() on the restored model.

这意味着可以使用新语料库重新训练和更新模型权重。但词汇表中不会添加新词。

检查代码和 Javadoc here