逐字或按哈希比较 2 段文本
Comparing 2 pieces of text word by word or by their hashes
我有一个 python 脚本定期抓取网页列表上的评论并将它们插入数据库。但它只插入一条评论,它还不在数据库中。存储每个评论的散列及其 body 以便下次我需要检查它是否已被插入时能够更快地查找它有多可行?而不是只讲述他们的身体并逐字比较?如果速度更快,我应该使用哪种哈希? Md5 或 ....?
平均评论1000字左右。我知道即使是单个字符的差异也会导致不同的哈希值,没关系。
您可以使用 Jaccard Index 之类的东西。这甚至可以让你搜索部分匹配,你可以设置一个阈值来拒绝或 select 匹配(即相似的文本)
您甚至可以寻找 Minhashing,这将是 space 执行 Jaccard 距离的有效方法,您将受益于一些字符差异被匹配并产生相同的桶(查看 Locality Sensitive Hashing ).不过,您必须设置一个阈值,precision/recall 问题是您必须解决的问题。
我有一个 python 脚本定期抓取网页列表上的评论并将它们插入数据库。但它只插入一条评论,它还不在数据库中。存储每个评论的散列及其 body 以便下次我需要检查它是否已被插入时能够更快地查找它有多可行?而不是只讲述他们的身体并逐字比较?如果速度更快,我应该使用哪种哈希? Md5 或 ....?
平均评论1000字左右。我知道即使是单个字符的差异也会导致不同的哈希值,没关系。
您可以使用 Jaccard Index 之类的东西。这甚至可以让你搜索部分匹配,你可以设置一个阈值来拒绝或 select 匹配(即相似的文本)
您甚至可以寻找 Minhashing,这将是 space 执行 Jaccard 距离的有效方法,您将受益于一些字符差异被匹配并产生相同的桶(查看 Locality Sensitive Hashing ).不过,您必须设置一个阈值,precision/recall 问题是您必须解决的问题。