如果我的文本数据递增,可以使用 doc2vec 吗?
Can doc2vec be used if my text data is incrementally increasing?
我是 Doc2vec 使用的新手。如果我能在开始之前得到一些建议,那将节省很多时间。
我的数据是一连串的文本数据(比如推文)不断地及时到来。为了对这些推文进行聚类,我正在考虑使用 doc2vec 将文本内容缩减为固定大小的向量,并使用它来比较文档。
所以在这种情况下,文本数据会随着时间的推移而积累,这是否仍然可以与 Doc2Vec 一起使用,我可能不得不一次又一次地学习模型(可能是!)或者我可以使用一些大型语料库,例如维基百科或大型语料库新闻语料库来训练 Doc2Vec 模型。
任何建议都会有所帮助!
提前致谢。
gensim Doc2Vec class不支持使用新文档调整模型,但可以'infer' 并根据从早期批量训练中学到的模型报告新文档的向量。
因此,您可以使用新的推断向量将新文档与旧文档进行比较,或者将其提供给训练有素的 classifier 等。
如果新文档不断到达,尤其是如果文档中 topics/meaning 的余额随着时间的推移而漂移,您可能会在某个时候想要丢弃基于旧数据的模型,并创建一个新的模型基于更大(或更新)数据的模型。
(请注意,来自旧模型和新模型的向量 不会 可以直接比较。培训课程涉及很多随机性,dimensions/directions 的含义在任何一个模型中都有些武断。在同一模型中,矢量的相对位置具有一定的解释力。)
我是 Doc2vec 使用的新手。如果我能在开始之前得到一些建议,那将节省很多时间。 我的数据是一连串的文本数据(比如推文)不断地及时到来。为了对这些推文进行聚类,我正在考虑使用 doc2vec 将文本内容缩减为固定大小的向量,并使用它来比较文档。 所以在这种情况下,文本数据会随着时间的推移而积累,这是否仍然可以与 Doc2Vec 一起使用,我可能不得不一次又一次地学习模型(可能是!)或者我可以使用一些大型语料库,例如维基百科或大型语料库新闻语料库来训练 Doc2Vec 模型。
任何建议都会有所帮助!
提前致谢。
gensim Doc2Vec class不支持使用新文档调整模型,但可以'infer' 并根据从早期批量训练中学到的模型报告新文档的向量。
因此,您可以使用新的推断向量将新文档与旧文档进行比较,或者将其提供给训练有素的 classifier 等。
如果新文档不断到达,尤其是如果文档中 topics/meaning 的余额随着时间的推移而漂移,您可能会在某个时候想要丢弃基于旧数据的模型,并创建一个新的模型基于更大(或更新)数据的模型。
(请注意,来自旧模型和新模型的向量 不会 可以直接比较。培训课程涉及很多随机性,dimensions/directions 的含义在任何一个模型中都有些武断。在同一模型中,矢量的相对位置具有一定的解释力。)