如何从 word2vec 上的语料库中找到相似的句子?

How to find similar sentence from a corpus on word2vec?

我已经使用 TensorFlow 教程在我的语料库上实现了 word2vec:https://www.tensorflow.org/tutorials/text/word2vec#next_steps 现在我想给一个句子作为输入,想在语料库中找到一个相似的句子。

关于如何执行此操作的任何线索?

一个简单的 word2vec 模型无法完成这样的任务,因为它只将单词语义相互关联,而不是整个句子的语义。本质上,这样的模型没有生成功能,它只起到查找的作用table.

Word2vec 模型将词串映射到嵌入中的向量 space。要为给定的样本词找到相似的词,可以简单地遍历词汇表中的所有向量并找到与样本词向量最接近的(根据 2-范数)。如需更多信息,您可以前往 here or here.

但是,这不适用于句子,因为它需要整个句子词汇表才能从中挑选相似的句子 - 这是不可行的。

编辑:这似乎是 this 问题的重复。