如何通过比较一列值来删除openrefine中的重复行?

How to delete duplicates rows in openrefine by comparing one column value?

我在 csv 中有 20000 行重复项,我正在尝试使用 openrefine 删除重复项。我的问题是,我想删除数量较少的重复项。在图像中,如果你看前两行,第 136 行的数量为 1,第 137 行的数量为 3,否则所有参数都相同,所以,我想保留第 137 行并删除第 136 行。 我如何使用 OpenRefine 实现这一目标? OpenRefine Screenshot

在 OpenRefine 中,您可以同时按多列排序。你的情况:

  • 首先按 invoice number
  • 排序
  • 然后按 Quantity 排序,select 按 numberlargest first 排序,并取消勾选 sort by this column alone 选项。

这样,它将按发票编号和数量排序。然后你可以在这里关注process to remove duplicate using OpenRefine