匹配 2 个文本文档的最佳方式

Best way to match 2 text documents

我正在尝试制作这样一个软件,它可以智能地生成 2 个文本文档,有点像检查文本匹配的程度,而不是像 DIFF 我在谷歌上搜索了一下,我发现了 Graph 和 TFIDF 两个东西。

但是我对这两个感到困惑,我不知道哪个更好,还有没有其他技术可以匹配文本文档

您是否看过通过余弦距离测量文档相似度? 余弦相似度是衡量两个内积向量space之间相似性的度量,它衡量它们之间夹角的余弦值http://en.wikipedia.org/wiki/Cosine_similarity

如果您有文档 A 和 B,您可以为文档 A 和 B 创建两个术语向量。术语向量 A 将包含来自文档 A 的词以及文档的每个词频率。您可以使用 TF-IDF 加权代替原始词频。文档 B 也是如此。一旦你有了术语向量 A 和 B,你就可以计算术语向量 A 和 B 的余弦相似度,它们代表文档 A 和 B。 在创建术语向量之前,您需要执行一些预处理任务,例如过滤停用词。