转换文件后的 DynamoDB 数据加载。任何 AWS 服务,如 GCP Dataflow/Apache Beam?

DynamoDB data load after transforming files. Any AWS service like GCP Dataflow/Apache Beam?

AWS 新手。我有一个 要求 来创建每日批处理管道

  1. 读取 6-10 个 1GB+ CSV 文件。 (每个文件都是 table 来自 SQL 数据库的摘录。)
  2. 用一些逻辑转换每个文件并加入所有文件以每个 ID 创建一个项目。
  3. 使用更新插入逻辑将此连接数据加载到单个 DynamoDB table。

当前 我开始使用的方法是: 我们有一个 EC2 可用于此类任务。所以我正在编写 python 代码以 (1) 读取所有 CSV,(2) 转换为非规范化 JSON 文件,以及 (3) 使用 boto3

导入 Dynamodb

我的问题是我担心我的数据是否是“大数据”。使用单个 Python 脚本可以处理 10GB 数据吗?如果文件大小变成 10 倍,我会面临缩放问题吗? 我过去只使用过 GCP,在这种情况下,我会使用 DataFlow 来完成任务。那么在 AWS 术语中是否有等价物?如果有人可以提供一些想法,那就太好了。谢谢你的时间。

相当于 Google Cloud Dataflow 的 AWS 是 AWS Glue. The documentation isn't clear but Glue does write to DynamoDB.

AWS 中更合适的 Dataflow 等价物是 Kinesis Data Analytics, which supports Apache Beam's Java SDK

您可以在他们的服务上看到 example of an Apache Beam pipeline 运行。

Apache Beam 能够 write to DynamoDB

祝你好运!