Google Dataproc 和 BigQuery 与自定义查询的集成

Google Dataproc and BigQuery integration with custom query

我正在使用 Google dataproc 运行ning spark 集群。我想使用自定义查询从大查询中获取数据。我能够 运行 基本字数统计示例,但我正在寻找一种方法 运行 自定义查询 例如

SELECT ROW_NUMBER() OVER() as Id, prop11 FROM (
    SELECT prop11 FROM (
        TABLE_DATE_RANGE([mapping.abc_v2_], DATE_ADD(CURRENT_TIMESTAMP(), -1, 'MONTH'), CURRENT_TIMESTAMP())
    ) WHERE (prop11 IS NOT null AND prop11 !="") GROUP EACH BY prop11
)

我们在 hadoop bigquery 连接器中有 Java API 吗?

目前,BigQuery Connector for Hadoop 不支持执行 BigQuery 查询的机制。

如果您的查询可以表示为 Spark SQL 或通过 Spark 转换,那么您可以使用从 BigQuery 到 GCS 的导出(当前的 BigQuery Hadoop 连接器工作流),然后使用 Spark 生成一个最后结果。