如何将 AWS DynamoDB table 导出到 S3 存储桶?

How to export an AWS DynamoDB table to an S3 Bucket?

我有一个 DynamoDB table,它有 150 万条记录/2GB。如何将其导出到 S3?

执行此操作的 AWS 数据管道方法适用于小型 table。但是我在将 150 万条记录 table 导出到我的 S3 时遇到了问题。

在我的初始试用中,管道作业耗时 1 小时并失败

java.lang.OutOfMemoryError: GC overhead limit exceeded

我按照 this link

向 EMR 集群内的实例提供 hadoop-env 配置对象,从而增加了名称节点堆大小

增加堆大小后,我的下一个工作 运行 尝试在 1 小时后失败,并出现另一个错误,如所附的屏幕截图所示。我不确定在这里要做什么才能完全解决这个问题。

同时检查 EMR 集群中实例的 AWS Cloudwatch 图。核心节点一直处于 100% CPU 使用率。

EMR 集群实例类型(主节点和核心节点)为 m3.2xlarge。

问题出在地图任务上 运行 效率不高。核心节点达到 100% CPU 使用率。我将集群实例类型升级为可用的计算 C 系列之一,导出工作没有任何问题。