在 GREL (OpenRefine) 中解析多值 JSON

Parse multivalued JSON in GREL (OpenRefine)

我有一个包含以下内容的专栏:

7. {"resource":"abc"}
8. [{"resource":"def"},{"resource":"ghi"}]

我尝试获取"resource"的内容:

value.parseJson().resource

有效。如果我尝试获取多值单元格的内容,我将无法正常工作。我按照https://github.com/OpenRefine/OpenRefine/wiki/GREL-Other-Functions:

试过了
forEach(value.parseJson().resource,v,v.resource)

我得到了很多错误,例如:

7.  {"resource":"abc"}  Error: First argument to forEach is not an array
8.  [{"resource":"def"},{"resource":"ghi"}] Error: Object does not have any field, including resource

我只能得到多值单元格,而不能得到单值单元格:

forEach(value.parseJson(),v,v.resource)

您在这里遇到的一个问题是包含 JSON 数组(即多个值)的单元格与不包含数组的单元格之间的区别。

解决此问题的方法多种多样,最佳方法可能取决于数据的整体一致性。

我的第一个建议是使用过滤器或分面来分别处理单个值和数组单元格。鉴于您在示例中使用的数据,我认为以下方法可行:

1) 使用 GREL 在列上创建自定义文本 Facet

value.startsWith("[")

2) Select 'false' 从构面开始使用单值单元格 3) 对于这些单元格,使用 GREL

value.parseJson().resource

4) Select 'true' 从面到数组单元格 5) 对于这些单元格,使用 GREL

forEach(value.parseJson(),v,v.resource)

(n.b。这与您在问题中提到的 GREL 略有不同,因为它给出了错误)

6) 这个 GREL 的输出是一个 OpenRefine 数组。您需要将其转换为字符串以将输出存储在单元格中 - 因此您可能需要使用类似:

forEach(value.parseJson(),v,v.resource).join("|")