使用 Google Refine 解析多个值

Parsing multiple values with Google Refine

我有一个 CSV 列,内容如下(仅作为示例):

[{"qual"=>"05-Admmin "name"=>"CLARK C COHO"}, {"qual"=>"20-Soc Con", "name"=>"ALPHA S A"}, {"qual"=>"20-Soc Con", "name"=>"JACK SA"}

我想从 "name" 字段中自动提取值并用逗号分隔,结果如下:CLARCK C COHO、ALPHA S A、JACK SA 等等。

我知道我可以用这段代码得到一个特定的值:

value.parseJson()[0].name

我一直在阅读文档,但我不知道如何在所有字段之间循环。

有什么建议吗?

编辑: 这是该列的另一个示例。内容真的是这样的:

[{"qual"=>"49-SocAdm", "name"=>"ALVARO R L"}, {"qual"=>"49-SocAdm", "name"=>"GABRIEL G L"}]

您的 CSV 中的数据不是 JSON 格式。我不知道这是什么。一种键值格式,但我不知道是哪一种。此外,它有时缺少逗号或括号。我们可以尝试将其转换为有效的 JSOn,但使用正则表达式提取信息会更容易。这是 Python / Jython 的示例。

import re

pattern = re.compile(r'"name"=>"(.+?)"', re.M)

return ", ".join(pattern.findall(value))