Bigquery 最大处理数据大小限额?
Bigquery maximum processing data size allowance?
我的问题是我们可以在 bigquery 上处理多少数据。我正在使用 Whosebug 的 kaggle 数据集来分析数据,我正在分析的文本大约是 27gb。我只想获取每个条目的平均长度,所以我这样做
query_length_text = """
SELECT
AVG(CHAR_LENGTH(title)) AS avg_title_length,
AVG(CHAR_LENGTH(body)) AS avg_body_length
FROM
`bigquery-public-data.Whosebug.Whosebug_posts`
"""
然而这是说:
Query cancelled; estimated size of 26.847077486105263 exceeds limit of 1 GB
我只返回一个浮点数,所以我知道这不是问题所在。 1gb也在处理吗?如何批量处理,一次处理1GB?
因此,Kaggle 默认设置了 1GB 的请求限制(以防止每月 5TB 的配额 运行 超出)。这就是导致这种情况发生的原因。为防止这种情况,您可以使用 max_gb_scanned 参数覆盖它,如下所示:
df = bq_assistant.query_to_pandas_safe(QUERY, max_gb_scanned = N)
其中 N 是您的查询处理的数据量,或任何大于它的数字。
我的问题是我们可以在 bigquery 上处理多少数据。我正在使用 Whosebug 的 kaggle 数据集来分析数据,我正在分析的文本大约是 27gb。我只想获取每个条目的平均长度,所以我这样做
query_length_text = """
SELECT
AVG(CHAR_LENGTH(title)) AS avg_title_length,
AVG(CHAR_LENGTH(body)) AS avg_body_length
FROM
`bigquery-public-data.Whosebug.Whosebug_posts`
"""
然而这是说:
Query cancelled; estimated size of 26.847077486105263 exceeds limit of 1 GB
我只返回一个浮点数,所以我知道这不是问题所在。 1gb也在处理吗?如何批量处理,一次处理1GB?
因此,Kaggle 默认设置了 1GB 的请求限制(以防止每月 5TB 的配额 运行 超出)。这就是导致这种情况发生的原因。为防止这种情况,您可以使用 max_gb_scanned 参数覆盖它,如下所示:
df = bq_assistant.query_to_pandas_safe(QUERY, max_gb_scanned = N)
其中 N 是您的查询处理的数据量,或任何大于它的数字。