如何将 AWS DynamoDB table 导出到 S3 存储桶？

How to export an AWS DynamoDB table to an S3 Bucket?

我有一个 DynamoDB table，它有 150 万条记录/2GB。如何将其导出到 S3？

执行此操作的 AWS 数据管道方法适用于小型 table。但是我在将 150 万条记录 table 导出到我的 S3 时遇到了问题。

在我的初始试用中，管道作业耗时 1 小时并失败

java.lang.OutOfMemoryError: GC overhead limit exceeded

我按照 this link

向 EMR 集群内的实例提供 hadoop-env 配置对象，从而增加了名称节点堆大小

增加堆大小后，我的下一个工作运行尝试在 1 小时后失败，并出现另一个错误，如所附的屏幕截图所示。我不确定在这里要做什么才能完全解决这个问题。

同时检查 EMR 集群中实例的 AWS Cloudwatch 图。核心节点一直处于 100% CPU 使用率。

EMR 集群实例类型（主节点和核心节点）为 m3.2xlarge。

问题出在地图任务上运行效率不高。核心节点达到 100% CPU 使用率。我将集群实例类型升级为可用的计算 C 系列之一，导出工作没有任何问题。