gensim doc2vec most_similar 相当于获取完整文档
Gensim doc2vec most_similar equivalent to get full documents
在 Gensim 的 doc2vec 实现中,gensim.models.keyedvectors.Doc2VecKeyedVectors.most_similar
returns 与查询文档最相似的文档的标签和余弦相似度。如果我想要实际文档本身而不是标签怎么办?有没有一种方法可以直接执行此操作而无需搜索与 most_similar
返回的标签关联的文档?
另外,有这方面的文档吗?我似乎找不到一半 Gensim 类.
的文档
Doc2Vec
class 不能用作以原始格式存储原始文档的完整文档数据库。这将需要很多额外的复杂性和状态。
相反,您只需以训练所需的标记化格式呈现带有特定标签的文档,而模型仅学习并保留其向量表示。
如果您随后需要查找原始文档,则必须维护您自己的(标签 -> 文档)查找 - 许多项目已经将其作为文档的原始来源。
Doc2Vec
class 文档位于 https://radimrehurek.com/gensim/models/doc2vec.html,但查看 gensim
docs/notebooks
中包含的示例 Jupyter 笔记本可能也会有所帮助目录,但也可在线查看:
https://github.com/RaRe-Technologies/gensim/tree/develop/docs/notebooks
与 Doc2Vec
相关的三个笔记本的文件名以 doc2vec-
开头。
在 Gensim 的 doc2vec 实现中,gensim.models.keyedvectors.Doc2VecKeyedVectors.most_similar
returns 与查询文档最相似的文档的标签和余弦相似度。如果我想要实际文档本身而不是标签怎么办?有没有一种方法可以直接执行此操作而无需搜索与 most_similar
返回的标签关联的文档?
另外,有这方面的文档吗?我似乎找不到一半 Gensim 类.
的文档Doc2Vec
class 不能用作以原始格式存储原始文档的完整文档数据库。这将需要很多额外的复杂性和状态。
相反,您只需以训练所需的标记化格式呈现带有特定标签的文档,而模型仅学习并保留其向量表示。
如果您随后需要查找原始文档,则必须维护您自己的(标签 -> 文档)查找 - 许多项目已经将其作为文档的原始来源。
Doc2Vec
class 文档位于 https://radimrehurek.com/gensim/models/doc2vec.html,但查看 gensim
docs/notebooks
中包含的示例 Jupyter 笔记本可能也会有所帮助目录,但也可在线查看:
https://github.com/RaRe-Technologies/gensim/tree/develop/docs/notebooks
与 Doc2Vec
相关的三个笔记本的文件名以 doc2vec-
开头。