通过athena查询存储在s3中的csv表

Query csv tables stored s3 through athena

最近我们开始将备份存储在 aws s3 中。都是我们需要通过aws athena查询的csv文件。 我们试图一张一张地插入表格,但它花费的时间太长,这是相当多的数据。有没有我们可以使用的 API 或已经设置好的东西? 我们打算用 spark 做点什么,但也许有更简单的方法,或者已经有人做过的事情。 谢谢

您只需在具有所需属性的 CSV 文件之上创建一个外部 table。

参考:Create External Table on AWS Athena

您还可以使用 Glue Crawler 并将其配置为自动为您填充 table。

参考:Cataloging tables with a crawler

有不同的 AWS SDK (here) 可用于自动执行您的任务,例如将文件上传到 S3、创建 athena table 或通过 glue clawler 对 table 进行编目。