Google 优化 - 提取单元格中相同的值

Google Refine - pull out identical values in cell

我的列中有这样的数据

["Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymor Cottages"]

它本质上是同一件事多次,但由于这些是由用户输入的,因此它们可能会有所不同。如果您注意到最后一个缺少 e。

我想做的是创建一个新列,其中只包含唯一名称。所以新列将只包含 "Lymore Cottages, Lymor Cottages".

我相信 Google/open Refine 可以做到这一点。我尝试了聚类,但这也将所有其他具有相同细节的行而不是每个单元格聚类。 (无论是否有 20 行具有相同数据,我都需要每一行)

这不是编程问题,但是在单元格中拆分值的组合,removing the duplicates 然后重新组合内容可能有效。

可能有更简单的方法来做到这一点。大致上,您可以

拆分

  1. Split multi-valued cells... 上列

  2. 去掉括号和引号

    value.replace('[', '').replace(']','').replace('"', '')

删除重复项

  1. 接下来,Sort... A-Z 和 Reorder rows permanently

  2. Blank down 上列

  3. 调用Facet by blank和selectTrue

  4. Remove all matching rows 来自 All > Edit rows

重组

  1. 上栏,Transpose cells in rows into columns...

  2. 使用

    用方括号和引号重建字段

    '['+ ' ' + value + ',' + ' ' + cells['Step 7 Field Name'].value + ' ' + ']'