我怎样才能加快这个雅典娜查询?
How can I speed up this Athena Query?
我正在 运行通过 Athena 查询编辑器对 Glue 数据目录中的 table 进行查询,想了解为什么做一个简单的 select * 来自这个数据。
我们的数据存储在按 year/month/day/hour 分区的 S3 存储桶中,每个分区有 80 个活泼的 Parquet 文件,每个文件的大小在 1 - 10 MB 之间。当我 运行 以下查询时:
select stringA, stringB, timestampA, timestampB, bigintA, bigintB
from tableA
where year='2021' and month='2' and day = '2'
它扫描了 700MB,但需要超过 3 分钟才能显示 Athena 结果。我觉得我们已经优化了这些数据的文件格式和分区,所以我不确定如果我们只是尝试 select 输出这些数据并将其显示在像这样的工具中,我们还能如何提高性能QuickSight.
select * 性能受到需要扫描的文件数量的影响,这些文件都相对较小。重新分区和删除小时分区导致运行时间(减少 14%)和扫描数据(减少 26%)的改进,因为快速压缩在更大的文件上获得更多收益。
来源:https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/
我正在 运行通过 Athena 查询编辑器对 Glue 数据目录中的 table 进行查询,想了解为什么做一个简单的 select * 来自这个数据。
我们的数据存储在按 year/month/day/hour 分区的 S3 存储桶中,每个分区有 80 个活泼的 Parquet 文件,每个文件的大小在 1 - 10 MB 之间。当我 运行 以下查询时:
select stringA, stringB, timestampA, timestampB, bigintA, bigintB
from tableA
where year='2021' and month='2' and day = '2'
它扫描了 700MB,但需要超过 3 分钟才能显示 Athena 结果。我觉得我们已经优化了这些数据的文件格式和分区,所以我不确定如果我们只是尝试 select 输出这些数据并将其显示在像这样的工具中,我们还能如何提高性能QuickSight.
select * 性能受到需要扫描的文件数量的影响,这些文件都相对较小。重新分区和删除小时分区导致运行时间(减少 14%)和扫描数据(减少 26%)的改进,因为快速压缩在更大的文件上获得更多收益。
来源:https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/