Pandas drop_duplicates 没有找到所有重复项

Pandas drop_duplicates not finding all duplicates

pandas 数据帧中的 drop_duplicates 有问题。我将大量混合数据从 excel 文件导入数据框,然后执行各种操作来清理数据。其中一个阶段是根据坐标删除所有重复项。

总的来说,这工作得很好,重要的是它非常快,但我遇到了一些问题,在对数据集进行广泛搜索后,我发现 pandas 总是有一些重复。

这是我的测试数据集:

             x          y      z  radius  scale    type
0   128.798699  76.038331  0.000   1.172  1.000  Node_B
1   136.373699  78.068331  0.000   1.172  1.000  Node_B
2   133.171699  74.866331  0.000   1.172  1.000  Node_B
3   135.201699  76.038331  0.000   1.172  1.000  Node_B
4   135.201699  82.442331  0.000   1.172  1.000  Node_B
5   136.373699  80.412331  0.000   1.172  1.000  Node_B
6   133.171699  83.614331  0.000   1.172  1.000  Node_B
7   127.626699  78.068331  0.000   1.172  1.000  Node_B
8   131.999699  79.240331  0.000   2.750  1.000  Node_A
9    90.199699  94.795331  0.626   0.325  0.650   Rib_B
10   85.799699  95.445331  0.626   0.325  0.650   Rib_B
11   90.199699  95.445331  0.626   0.325  0.650   Rib_B
12   91.865699  95.557331  0.537   0.438  0.876   Rib_B
13  128.798699  82.442331  0.000   1.172  1.000  Node_B
14  136.373699  80.412331  0.000   1.172  1.000  Node_B
15  158.373699  38.448331  0.000   1.172  1.000  Node_B
16  152.827699  35.246331  0.000   1.172  1.000  Node_B
17  157.201699  36.418331  0.000   1.172  1.000  Node_B
18  155.171699  35.246331  0.000   1.172  1.000  Node_B
19  215.626699  80.412331  0.000   1.172  1.000  Node_B
20  218.827699  83.614331  0.000   1.172  1.000  Node_B
21  216.798699  82.442331  0.000   1.172  1.000  Node_B
22  131.999699  79.240331  0.000   2.750  1.000  Node_A
23  128.798699  76.038331  0.000   1.172  1.000  Node_B
24  136.373699  78.068331  0.000   1.172  1.000  Node_B
25  162.051699  70.180331  0.626   0.325  0.650   Rib_D
26  162.619699  70.496331  0.626   0.325  0.650   Rib_D
27  189.948699  70.180331  0.626   0.325  0.650   Rib_D

我根据 x,y,z 坐标查找重复项,因为这些位置应该是唯一的,所以我使用 df.drop_duplicates(subset=['x', 'y', 'z'], inplace=True) 从数据框中删除所有重复项。这似乎删除了大约 90% 的重复项,但似乎总是遗漏了一些。

示例数据框中有多个重复项 [0==23, 1==24, 6==14, 8==22] 但 pandas 无法删除它们。

我发现它使用 numpy 和一个非常慢的迭代循环,该循环将每个点与其他点进行比较。 50 或 100 点没问题,但当我在数据框中有 100-200K 条记录时需要 15-20 分钟。

我该如何解决这个问题? drop_duplicates 没有精度参数,为什么会遗漏一些?

您可以按照@mozway 的建议使用round

PRECISION = 3

df.drop(df[['x', 'y', 'z']].round(PRECISION).duplicated().loc[lambda x: x].index, inplace=True)
print(df)

# Output
             x          y      z  radius  scale    type
0   128.798699  76.038331  0.000   1.172  1.000  Node_B
1   136.373699  78.068331  0.000   1.172  1.000  Node_B
2   133.171699  74.866331  0.000   1.172  1.000  Node_B
3   135.201699  76.038331  0.000   1.172  1.000  Node_B
4   135.201699  82.442331  0.000   1.172  1.000  Node_B
5   136.373699  80.412331  0.000   1.172  1.000  Node_B
6   133.171699  83.614331  0.000   1.172  1.000  Node_B
7   127.626699  78.068331  0.000   1.172  1.000  Node_B
8   131.999699  79.240331  0.000   2.750  1.000  Node_A
9    90.199699  94.795331  0.626   0.325  0.650   Rib_B
10   85.799699  95.445331  0.626   0.325  0.650   Rib_B
11   90.199699  95.445331  0.626   0.325  0.650   Rib_B
12   91.865699  95.557331  0.537   0.438  0.876   Rib_B
13  128.798699  82.442331  0.000   1.172  1.000  Node_B
15  158.373699  38.448331  0.000   1.172  1.000  Node_B
16  152.827699  35.246331  0.000   1.172  1.000  Node_B
17  157.201699  36.418331  0.000   1.172  1.000  Node_B
18  155.171699  35.246331  0.000   1.172  1.000  Node_B
19  215.626699  80.412331  0.000   1.172  1.000  Node_B
20  218.827699  83.614331  0.000   1.172  1.000  Node_B
21  216.798699  82.442331  0.000   1.172  1.000  Node_B
25  162.051699  70.180331  0.626   0.325  0.650   Rib_D
26  162.619699  70.496331  0.626   0.325  0.650   Rib_D
27  189.948699  70.180331  0.626   0.325  0.650   Rib_D