如何通过 AWS Glue 获取最新数据
How to get latest data by AWS Glue
我在AWS中管理一些数据,S3 bucket中有一些parquet文件。每天都会有新的文件加入这个bucket,我想用Athena获取最新文件中的数据。
我想知道如何在Athena Query 中指定最新的文件路径。是否可以从每个镶木地板文件的路径中识别最新文件?
Presto DB(现为 Trino)是 Athena 所基于的引擎。支持查询文件时间戳 has been recently added,但可能需要一段时间才能在 Athena 上可用(可能几年)。
同时,如果您的 parquet 文件在名称中包含时间戳,您可以执行如下操作:
select * from mydb
where "$path" in
(
select "$path"
from my db
order by "$path" desc
limit 1
)
我在AWS中管理一些数据,S3 bucket中有一些parquet文件。每天都会有新的文件加入这个bucket,我想用Athena获取最新文件中的数据。
我想知道如何在Athena Query 中指定最新的文件路径。是否可以从每个镶木地板文件的路径中识别最新文件?
Presto DB(现为 Trino)是 Athena 所基于的引擎。支持查询文件时间戳 has been recently added,但可能需要一段时间才能在 Athena 上可用(可能几年)。
同时,如果您的 parquet 文件在名称中包含时间戳,您可以执行如下操作:
select * from mydb
where "$path" in
(
select "$path"
from my db
order by "$path" desc
limit 1
)