sense2vec 性能改进

Question

我正在使用 Sense2Vec（建立在 Spacy 之上，一个很棒的 NLP library/tool）并测试不同单词之间的相似性。不幸的是，性能非常慢（在普通 MacBook Pro 上执行超过一秒）。

有人有办法加快速度吗？

代码如下：

term = "dog|NOUN"
sense2vec = Sense2Vec().from_disk("path-to-s2v_reddit_2019_lg")
sims = sense2vec.most_similar(term, n=top)

我怀疑一些缓存会加快速度，但我不确定应该缓存哪些元素。

感谢任何帮助。

Answer 1

确实有办法加快Sense2Vec.most_similar。 https://github.com/explosion/sense2vec/blob/master/scripts/06_precompute_cache.py 提供了一个脚本，它预先计算最近邻居的缓存。然后它会将该缓存与组件一起保存在磁盘上，从而使数据更大但查询速度更快。如果查询未被缓存覆盖，most_similar 回退到使用正常计算。

sense2vec 性能改进

sense2vec performance improvemets

nlp

spacy

sense2vec