如何通过 AWS Glue 获取最新数据

How to get latest data by AWS Glue

我在AWS中管理一些数据,S3 bucket中有一些parquet文件。每天都会有新的文件加入这个bucket,我想用Athena获取最新文件中的数据。

我想知道如何在Athena Query 中指定最新的文件路径。是否可以从每个镶木地板文件的路径中识别最新文件?

Presto DB(现为 Trino)是 Athena 所基于的引擎。支持查询文件时间戳 has been recently added,但可能需要一段时间才能在 Athena 上可用(可能几年)。

同时,如果您的 parquet 文件在名称中包含时间戳,您可以执行如下操作:

select * from mydb 
where "$path" in 
(
   select "$path" 
   from my db
   order by "$path" desc 
   limit 1
)