Gensim 的相似性:它是如何工作的?

Gensim's similarity: how does it work?

我想知道 similarity 如何与 gensim 一起使用?不同的分片是如何创建的,当只查找前 N 个相似文档时它会提高性能吗?更一般地说,是否有关于 gensim 内部结构的文档?

gensim内部文档是完整的源代码:

https://github.com/RaRe-Technologies/gensim

对于这样的高维数据,找到 精确 前 N 个最相似的向量通常需要对所有候选向量进行详尽搜索。也就是说,没有简单的分片可以让大多数向量因为距离太远而被忽略,但仍能给出精确的结果。

种近似索引技术,例如ANNOY, that can speed searches... but they tend to miss some of the true top-N results. Gensim includes a demo notebook of using ANNOY-indexing with gensim's word2vec support。 (应该可以对其他文本向量做类似的事情,比如教程中的词袋表示 link。)