Bigquery 最大处理数据大小限额？

Question

我的问题是我们可以在 bigquery 上处理多少数据。我正在使用 Whosebug 的 kaggle 数据集来分析数据，我正在分析的文本大约是 27gb。我只想获取每个条目的平均长度，所以我这样做

query_length_text = """
    SELECT 
        AVG(CHAR_LENGTH(title)) AS avg_title_length,
        AVG(CHAR_LENGTH(body)) AS avg_body_length
    FROM
        `bigquery-public-data.Whosebug.Whosebug_posts`
"""

然而这是说：

Query cancelled; estimated size of 26.847077486105263 exceeds limit of 1 GB

我只返回一个浮点数，所以我知道这不是问题所在。 1gb也在处理吗？如何批量处理，一次处理1GB？

Answer 1

因此，Kaggle 默认设置了 1GB 的请求限制（以防止每月 5TB 的配额运行超出）。这就是导致这种情况发生的原因。为防止这种情况，您可以使用 max_gb_scanned 参数覆盖它，如下所示：

df = bq_assistant.query_to_pandas_safe(QUERY, max_gb_scanned = N)

其中 N 是您的查询处理的数据量，或任何大于它的数字。

Bigquery 最大处理数据大小限额？

Bigquery maximum processing data size allowance?

bigdata

google-bigquery

kaggle