Google 优化 - 提取单元格中相同的值
Google Refine - pull out identical values in cell
我的列中有这样的数据
["Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymor Cottages"]
它本质上是同一件事多次,但由于这些是由用户输入的,因此它们可能会有所不同。如果您注意到最后一个缺少 e。
我想做的是创建一个新列,其中只包含唯一名称。所以新列将只包含 "Lymore Cottages, Lymor Cottages".
我相信 Google/open Refine 可以做到这一点。我尝试了聚类,但这也将所有其他具有相同细节的行而不是每个单元格聚类。 (无论是否有 20 行具有相同数据,我都需要每一行)
这不是编程问题,但是在单元格中拆分值的组合,removing the duplicates 然后重新组合内容可能有效。
可能有更简单的方法来做到这一点。大致上,您可以
拆分
Split multi-valued cells...
上列
去掉括号和引号
value.replace('[', '').replace(']','').replace('"', '')
删除重复项
接下来,Sort...
A-Z 和 Reorder rows permanently
Blank down
上列
调用Facet by blank
和selectTrue
Remove all matching rows
来自 All
> Edit rows
重组
上栏,Transpose cells in rows into columns...
使用
用方括号和引号重建字段
'['+ ' ' + value + ',' + ' ' + cells['Step 7 Field Name'].value + ' ' + ']'
我的列中有这样的数据
["Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymor Cottages"]
它本质上是同一件事多次,但由于这些是由用户输入的,因此它们可能会有所不同。如果您注意到最后一个缺少 e。
我想做的是创建一个新列,其中只包含唯一名称。所以新列将只包含 "Lymore Cottages, Lymor Cottages".
我相信 Google/open Refine 可以做到这一点。我尝试了聚类,但这也将所有其他具有相同细节的行而不是每个单元格聚类。 (无论是否有 20 行具有相同数据,我都需要每一行)
这不是编程问题,但是在单元格中拆分值的组合,removing the duplicates 然后重新组合内容可能有效。
可能有更简单的方法来做到这一点。大致上,您可以
拆分
Split multi-valued cells...
上列去掉括号和引号
value.replace('[', '').replace(']','').replace('"', '')
删除重复项
接下来,
Sort...
A-Z 和Reorder rows permanently
Blank down
上列调用
Facet by blank
和selectTrue
Remove all matching rows
来自All
>Edit rows
重组
上栏,
Transpose cells in rows into columns...
使用
用方括号和引号重建字段'['+ ' ' + value + ',' + ' ' + cells['Step 7 Field Name'].value + ' ' + ']'