Gensim 的相似性：它是如何工作的？

Gensim's similarity: how does it work?

python
nlp
gensim

我想知道 similarity 如何与 gensim 一起使用？不同的分片是如何创建的，当只查找前 N 个相似文档时它会提高性能吗？更一般地说，是否有关于 gensim 内部结构的文档？

gensim内部文档是完整的源代码：

https://github.com/RaRe-Technologies/gensim

对于这样的高维数据，找到精确前 N 个最相似的向量通常需要对所有候选向量进行详尽搜索。也就是说，没有简单的分片可以让大多数向量因为距离太远而被忽略，但仍能给出精确的结果。

有种近似索引技术，例如ANNOY, that can speed searches... but they tend to miss some of the true top-N results. Gensim includes a demo notebook of using ANNOY-indexing with gensim's word2vec support。（应该可以对其他文本向量做类似的事情，比如教程中的词袋表示 link。）

Gensim 的相似性：它是如何工作的？

Gensim's similarity: how does it work?

python

nlp

gensim