使用 AWS Glue 从 S3 中的文件创建 athena table
Create athena table from files in S3 using AWS Glue
我正在尝试使用 AWS Glue 从 S3 存储桶中的文件创建 Athena table。我是 AWS 的新手,所以即使在正确的方向上轻推也会有很大的帮助。
问题是我无法解析 S3 存储桶中文件的内容。
我尝试使用 AWS 提供的标准爬虫以及编写自定义分类器(尽管这些似乎仍然需要 S3 存储桶文件位于 JSON、XML 或 Parquet 中格式)。
我的 S3 存储桶中的文件包含以下代码
{:description "A lovely journey",
:name "Train",
:uuid "00a0a0a0bb",
:code 'foo-code'}
{:description "A fast ride",
:name "Plane",
:uuid "aaa333aaa",
:code 'foo-code'}
我想以包含两行(火车和飞机)和 4 列('description'、'name'、'uuid' 和'code').
任何关于如何自动将文件转换为雅典娜文件的建议 table 将不胜感激。
这看起来像 Clojure EDN。您可能运气不错,使用 Clojure 库在 Scala 中编写 Glue ETL 作业来读取文件,但不幸的是,如果不将其转换为 JSON.
,您将无法让 Athena 读取它
我正在尝试使用 AWS Glue 从 S3 存储桶中的文件创建 Athena table。我是 AWS 的新手,所以即使在正确的方向上轻推也会有很大的帮助。
问题是我无法解析 S3 存储桶中文件的内容。
我尝试使用 AWS 提供的标准爬虫以及编写自定义分类器(尽管这些似乎仍然需要 S3 存储桶文件位于 JSON、XML 或 Parquet 中格式)。
我的 S3 存储桶中的文件包含以下代码
{:description "A lovely journey",
:name "Train",
:uuid "00a0a0a0bb",
:code 'foo-code'}
{:description "A fast ride",
:name "Plane",
:uuid "aaa333aaa",
:code 'foo-code'}
我想以包含两行(火车和飞机)和 4 列('description'、'name'、'uuid' 和'code').
任何关于如何自动将文件转换为雅典娜文件的建议 table 将不胜感激。
这看起来像 Clojure EDN。您可能运气不错,使用 Clojure 库在 Scala 中编写 Glue ETL 作业来读取文件,但不幸的是,如果不将其转换为 JSON.
,您将无法让 Athena 读取它