运行 SQL 类跨大型 JSON 数据集的查询,在云中?

Run SQL-like queries across large JSON datasets, in the cloud?

是否有满足这些要求的产品:

基本上,我想要 Google BigQuery,但不需要一致的预先指定的架构。

A​​pache Drill 在具有不同模式的大型 JSON 数据集上提供类似于 SQL 的查询。但是,我认为它在云托管数据集上效果不佳 - 已将其设置为与 S3 存储桶通信,并且它似乎需要在本地下载所有数据,这使得它无法用于大型数据集。

BigQuery 需要静态架构,但一种选择是将表定义为 CSV 格式,并带有不出现在数据中的分隔符,这意味着您只有一个字符串列。您将仅限于使用 JSON_EXTRACT 函数从 JSON 中提取数据,但您可以从那里转换为其他数据类型等。

您还可以考虑 filing a feature request 让 BigQuery 团队考虑支持一种文档类型,以便将来更轻松地处理此类数据。