Gensim 的 Doc2Vec most_similar 文档结果集是否有限制?
Is there a limit in Gensim's Doc2Vec most_similar documents result set?
我已经尝试使用 doc2vec 模块一段时间了。我可以训练我的模型,并让经过训练的模型为给定文档输出类似的文档,如下所示:
import re
modelloaded=Doc2Vec.load("model_all_doc_dm_1")
st = 'long description of a document as string'
doc = re.sub('[^a-zA-Z]', ' ', st).lower().split()
new_doc_vec = modelloaded.infer_vector(doc)
modelloaded.docvecs.most_similar([new_doc_vec])
这很好用,给了我 10 个结果。有没有办法获得 10 个以上的结果或者是限制?
我找到了:
modelloaded.docvecs.most_similar([new_doc_vec], topn=N)
topn=N
句柄可用于获取 10 个以上的结果。
我已经尝试使用 doc2vec 模块一段时间了。我可以训练我的模型,并让经过训练的模型为给定文档输出类似的文档,如下所示:
import re
modelloaded=Doc2Vec.load("model_all_doc_dm_1")
st = 'long description of a document as string'
doc = re.sub('[^a-zA-Z]', ' ', st).lower().split()
new_doc_vec = modelloaded.infer_vector(doc)
modelloaded.docvecs.most_similar([new_doc_vec])
这很好用,给了我 10 个结果。有没有办法获得 10 个以上的结果或者是限制?
我找到了:
modelloaded.docvecs.most_similar([new_doc_vec], topn=N)
topn=N
句柄可用于获取 10 个以上的结果。