使用 AWS Glue 从 S3 中的文件创建 athena table

Question

我正在尝试使用 AWS Glue 从 S3 存储桶中的文件创建 Athena table。我是 AWS 的新手，所以即使在正确的方向上轻推也会有很大的帮助。

问题是我无法解析 S3 存储桶中文件的内容。

我尝试使用 AWS 提供的标准爬虫以及编写自定义分类器（尽管这些似乎仍然需要 S3 存储桶文件位于 JSON、XML 或 Parquet 中格式）。

我的 S3 存储桶中的文件包含以下代码

{:description "A lovely journey",
 :name "Train",
 :uuid "00a0a0a0bb",
 :code 'foo-code'}
{:description "A fast ride",
 :name "Plane",
 :uuid "aaa333aaa",
 :code 'foo-code'}

我想以包含两行（火车和飞机）和 4 列（'description'、'name'、'uuid' 和'code').

任何关于如何自动将文件转换为雅典娜文件的建议 table 将不胜感激。

Answer 1

这看起来像 Clojure EDN。您可能运气不错，使用 Clojure 库在 Scala 中编写 Glue ETL 作业来读取文件，但不幸的是，如果不将其转换为 JSON.

，您将无法让 Athena 读取它

使用 AWS Glue 从 S3 中的文件创建 athena table

Create athena table from files in S3 using AWS Glue

amazon-s3

amazon-web-services

amazon-athena