大数据集中文本重复检测的高效算法

Efficient Algorithm for Detecting Text Duplicates in Big Dataset

我正致力于在大约 500 万个地址的列表中检测重复项,并且想知道是否已就用于此目的的有效算法达成共识。我查看了 Gitbub (https://github.com/datamade/dedupe) 上的 Dedupe 库,但根据文档,我不清楚这是否可以很好地扩展到大型应用程序。

顺便说一句,我只是想根据文本相似性来定义重复项 - 已经对地址进行了大量清理。我一直在使用一种使用 Levenshtein 距离的粗略方法,但想知道对于大型数据集是否有更有效的方法。

谢谢,

重复数据删除应该适用于该大小的数据。

Michael Wick and Beka Steorts 有一些出色的工作,其复杂性优于重复数据删除。