逐字或按哈希比较 2 段文本

Comparing 2 pieces of text word by word or by their hashes

我有一个 python 脚本定期抓取网页列表上的评论并将它们插入数据库。但它只插入一条评论，它还不在数据库中。存储每个评论的散列及其 body 以便下次我需要检查它是否已被插入时能够更快地查找它有多可行？而不是只讲述他们的身体并逐字比较？如果速度更快，我应该使用哪种哈希？ Md5 或 ....?

平均评论1000字左右。我知道即使是单个字符的差异也会导致不同的哈希值，没关系。

您可以使用 Jaccard Index 之类的东西。这甚至可以让你搜索部分匹配，你可以设置一个阈值来拒绝或 select 匹配（即相似的文本）

您甚至可以寻找 Minhashing，这将是 space 执行 Jaccard 距离的有效方法，您将受益于一些字符差异被匹配并产生相同的桶（查看 Locality Sensitive Hashing ).不过，您必须设置一个阈值，precision/recall 问题是您必须解决的问题。