Select 多个重复记录 OpenRefine

Select multiple repeated records OpenRefine

table位置有以下项目:

问题是有些行是“半重复”的(所有元素都相等,除了属性 attb 是一个整数)。我想删除所有重复的行并附加所有属性 attb,以逗号分隔。

例如,如果我有这两行:

Attb | City | County | Latitude | Longitude
--------------------------------------------
 1   |  c1  |  co1   |    l1    |  long1
--------------------------------------------    
 2   |   c1 |  co1   |    l1    |  long1

使用 OpenRefine,我想删除第二行并将第二行的 attb 值附加到第一行 attb'value。所以预期的输出应该是:

Attb | City | County | Latitude | Longitude
--------------------------------------------
 1,2 |  c1  |  co1   |   l1     |   long1

让我知道我是否足够清楚。

提前致谢。

为每一行创建一个键,它结合了将被复制的值。您可以使用:

编辑列->基于该列添加列

然后使用 GREL 表达式,例如:

cells["City"].value + cells["County"].value + cells["Latitude"].value + cells ["Longitude"].value

将列命名为 'Key' 或类似名称。

请注意,密钥不包含 Attb 列的内容。 将新的 'Key' 列移动到项目中的第一列 按 'Key' 列排序并永久应用排序 在键列

上使用 'Blank down'

确保 OR 处于 'Record' 模式(朝向网格的右上角)。您应该看到那些重复的行现在是同一 OR 记录的一部分。

在 Attb 列上使用编辑单元格->加入多值单元格并用逗号连接它们

删除 'Key' 列并将 OpenRefine 切换回 'Row' 模式。现在在 Attb 列上使用 'Facet by blank',找到那些具有空白 Attb 的行并删除这些行。

您现在应该拥有所需的合并行。