运行 SQL 类跨大型 JSON 数据集的查询,在云中?
Run SQL-like queries across large JSON datasets, in the cloud?
是否有满足这些要求的产品:
- 运行 SQL 类查询(最好使用友好的 UI,但必要时可以使用命令行)
- 跨越几百万文档的大部分静态 JSON 数据集,没有一致的模式
- JSON 文档存储在云中,而不是本地。
基本上,我想要 Google BigQuery,但不需要一致的预先指定的架构。
Apache Drill 在具有不同模式的大型 JSON 数据集上提供类似于 SQL 的查询。但是,我认为它在云托管数据集上效果不佳 - 已将其设置为与 S3 存储桶通信,并且它似乎需要在本地下载所有数据,这使得它无法用于大型数据集。
BigQuery 需要静态架构,但一种选择是将表定义为 CSV 格式,并带有不出现在数据中的分隔符,这意味着您只有一个字符串列。您将仅限于使用 JSON_EXTRACT
函数从 JSON 中提取数据,但您可以从那里转换为其他数据类型等。
您还可以考虑 filing a feature request 让 BigQuery 团队考虑支持一种文档类型,以便将来更轻松地处理此类数据。
是否有满足这些要求的产品:
- 运行 SQL 类查询(最好使用友好的 UI,但必要时可以使用命令行)
- 跨越几百万文档的大部分静态 JSON 数据集,没有一致的模式
- JSON 文档存储在云中,而不是本地。
基本上,我想要 Google BigQuery,但不需要一致的预先指定的架构。
Apache Drill 在具有不同模式的大型 JSON 数据集上提供类似于 SQL 的查询。但是,我认为它在云托管数据集上效果不佳 - 已将其设置为与 S3 存储桶通信,并且它似乎需要在本地下载所有数据,这使得它无法用于大型数据集。
BigQuery 需要静态架构,但一种选择是将表定义为 CSV 格式,并带有不出现在数据中的分隔符,这意味着您只有一个字符串列。您将仅限于使用 JSON_EXTRACT
函数从 JSON 中提取数据,但您可以从那里转换为其他数据类型等。
您还可以考虑 filing a feature request 让 BigQuery 团队考虑支持一种文档类型,以便将来更轻松地处理此类数据。