字符串相似度 TF-IDF Bag of words 或 Word2vec
String similarity TF-IDF Bag of words or Word2vec
我正在尝试创建一个应用程序来计算 2 个字符串之间的相似度。
琴弦不长。最多3个句子。
我做了一些研究,发现了一些可能的解决方案。
第一个使用词袋:计算词数并比较 2 个生成的向量(余弦相似度)
第二次使用 TF-IDF 并比较生成的向量。
第三种是使用word2vec并比较向量。
现在开始提问。
对于短句,word2vec 的性能是否优于 TF-IDF?
训练 word2vec 模型的最佳方法是什么?我应该使用大量文本(例如维基百科转储)还是仅使用正在比较的句子来训练它。
如何从word2vec中获取句子相似度。我应该平均每个句子中的单词还是有更好的解决方案?
我正在尝试创建一个应用程序来计算 2 个字符串之间的相似度。 琴弦不长。最多3个句子。 我做了一些研究,发现了一些可能的解决方案。
第一个使用词袋:计算词数并比较 2 个生成的向量(余弦相似度)
第二次使用 TF-IDF 并比较生成的向量。
第三种是使用word2vec并比较向量。
现在开始提问。
对于短句,word2vec 的性能是否优于 TF-IDF?
训练 word2vec 模型的最佳方法是什么?我应该使用大量文本(例如维基百科转储)还是仅使用正在比较的句子来训练它。
如何从word2vec中获取句子相似度。我应该平均每个句子中的单词还是有更好的解决方案?