使用重复数据删除时资源使用率低 python

Question

我需要在大型数据集中查找重复项，因此我正在测试 dedupe python 库。

我知道推荐用于小型数据集，所以我认为使用一台好的机器可以提高性能。我有一台 56 GB RAM 的机器，我正在运行一个类似于 "csv_example" 的测试，用于包含 200000 行的数据集。它有效，但内存使用率非常低，因此处理（CPU）。

阻塞阶段似乎耗时过长：

INFO:dedupe.blocking:10000, 110.6458142 seconds
INFO:dedupe.blocking:20000, 300.6112282 seconds
INFO:dedupe.blocking:30000, 557.1010122 seconds
INFO:dedupe.blocking:40000, 915.3087222 seconds

任何人都可以帮助我改进使用或告诉我是否有任何 library/setting 让程序使用更多可用资源？

Answer 1

您的运行ning 是哪个版本的重复数据删除？从 1.6.8 开始，它应该可以轻松处理这种大小的记录集。

但是，一般指导是，当您的运行出现内存问题时，切换为使用数据库进行阻塞，就像 postgres 示例中那样。

（我是 dedupe 的主要作者）。

使用重复数据删除时资源使用率低 python

Low resources usage when using dedupe python

python

pyspark

record-linkage

python-dedupe