使用 Glue 从 S3 存储桶转换 CSV 文件并将转换后的数据保存回另一个 S3 存储桶

Using Glue to transform CSV file from S3 bucket and saving the transformed data back into another S3 bucket

Objective 是将数据(csv 文件)从一个 S3 存储桶转换到另一个 S3 存储桶 - 使用 Glue。

我已经尝试过的:

  1. 我创建了一个 CSV 分类器。
  2. 我创建了一个爬虫来扫描 S3 存储桶中的数据。

我卡在哪里:

  1. 无法找到如何在不将输出保存在任何 RDS 或其他数据库服务中的情况下将其再次存储在 S3 中。

因为 Glue 输出要求数据库输出,我没有也不想使用。

有什么方法可以在不使用任何其他数据库系统的情况下实现目标,只是简单 - S3、Glue?

更多信息

示例单个 CSV 文件,我正在尝试合并

分隔符为“;”的分类器

爬虫配置

抓取工具结果(未检测到架构)

我假设您要合并的所有 CSV 文件都具有相同的架构。 您可以在 Glue 中编写与在本地 Spark 部署中编写的代码相同的代码

第 1 步:从目录获取数据 table

val datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "database_name", table_name = "table_name", transformation_ctx = "datasource0")

第 2 步:将 datasource0 动态帧转换为数据帧

val df = datasource0.toDF()

步骤 3:将数据帧存储到目标 s3 存储桶

df.write.format("csv").mode("append").save("s3://target-s3-path/Output")