我怎样才能加快这个雅典娜查询？

Question

我正在运行通过 Athena 查询编辑器对 Glue 数据目录中的 table 进行查询，想了解为什么做一个简单的 select * 来自这个数据。

我们的数据存储在按 year/month/day/hour 分区的 S3 存储桶中，每个分区有 80 个活泼的 Parquet 文件，每个文件的大小在 1 - 10 MB 之间。当我运行以下查询时：

select stringA, stringB, timestampA, timestampB, bigintA, bigintB
from tableA
where year='2021' and month='2' and day = '2'

它扫描了 700MB，但需要超过 3 分钟才能显示 Athena 结果。我觉得我们已经优化了这些数据的文件格式和分区，所以我不确定如果我们只是尝试 select 输出这些数据并将其显示在像这样的工具中，我们还能如何提高性能QuickSight.

Answer 1

select * 性能受到需要扫描的文件数量的影响，这些文件都相对较小。重新分区和删除小时分区导致运行时间（减少 14%）和扫描数据（减少 26%）的改进，因为快速压缩在更大的文件上获得更多收益。

How can I speed up this Athena Query?