使用 AWS Glue 从 S3 中的文件创建 athena table

Create athena table from files in S3 using AWS Glue

我正在尝试使用 AWS Glue 从 S3 存储桶中的文件创建 Athena table。我是 AWS 的新手,所以即使在正确的方向上轻推也会有很大的帮助。

问题是我无法解析 S3 存储桶中文件的内容。

我尝试使用 AWS 提供的标准爬虫以及编写自定义分类器(尽管这些似乎仍然需要 S3 存储桶文件位于 JSON、XML 或 Parquet 中格式)。

我的 S3 存储桶中的文件包含以下代码

{:description "A lovely journey",
 :name "Train",
 :uuid "00a0a0a0bb",
 :code 'foo-code'}
{:description "A fast ride",
 :name "Plane",
 :uuid "aaa333aaa",
 :code 'foo-code'}

我想以包含两行(火车和飞机)和 4 列('description'、'name'、'uuid' 和'code').

任何关于如何自动将文件转换为雅典娜文件的建议 table 将不胜感激。

这看起来像 Clojure EDN。您可能运气不错,使用 Clojure 库在 Scala 中编写 Glue ETL 作业来读取文件,但不幸的是,如果不将其转换为 JSON.

,您将无法让 Athena 读取它