从 BigQuery 中的 json 字符串中提取信息
Extract information from a json string in BigQuery
我在 Bigquery 中存储了一个 table,其中包含分类算法的结果。 table 模式是 INT、STRING,看起来像这样:
ID
Output
1001
{'Apple Cider': 0.7, 'Coffee' : 0.2, 'Juice' : 0.1}
1002
{'Black Coffee':0.9, 'Tea':0.1}
问题是如何获取每个字符串的第一个(或第二个或任何顺序)元素及其分数。 JSON_EXTRACT 似乎不太可能起作用,而且很可能可以用 Javascript 来完成。想知道这里的优雅解决方案是什么样的。
考虑以下
select ID,
trim(split(kv, ':')[offset(0)], " '") element,
cast(split(kv, ':')[offset(1)] as float64) score,
element_position
from `project.dataset.table` t,
unnest(regexp_extract_all(trim(Output, '{}'), r"'[^':']+'\s?:\s?[^,]+")) kv with offset as element_position
如果应用于您问题中的示例数据 - 输出为
注意:如果您愿意,可以使用更简洁的 unnest 语句
unnest(split(trim(Output, '{}'))) kv with offset as element_position
我在 Bigquery 中存储了一个 table,其中包含分类算法的结果。 table 模式是 INT、STRING,看起来像这样:
ID | Output |
---|---|
1001 | {'Apple Cider': 0.7, 'Coffee' : 0.2, 'Juice' : 0.1} |
1002 | {'Black Coffee':0.9, 'Tea':0.1} |
问题是如何获取每个字符串的第一个(或第二个或任何顺序)元素及其分数。 JSON_EXTRACT 似乎不太可能起作用,而且很可能可以用 Javascript 来完成。想知道这里的优雅解决方案是什么样的。
考虑以下
select ID,
trim(split(kv, ':')[offset(0)], " '") element,
cast(split(kv, ':')[offset(1)] as float64) score,
element_position
from `project.dataset.table` t,
unnest(regexp_extract_all(trim(Output, '{}'), r"'[^':']+'\s?:\s?[^,]+")) kv with offset as element_position
如果应用于您问题中的示例数据 - 输出为
注意:如果您愿意,可以使用更简洁的 unnest 语句
unnest(split(trim(Output, '{}'))) kv with offset as element_position