数据管道 - Dynamo DB 导出

Data Pipeline - Dynamo DB export

我在 DynamoDB 中有一个 table,它有数百万条记录。我已经根据标准创建了二级索引 (GSI),并根据该标准过滤产品。现在,我想使用 AWS 数据管道从 table 查询产品并将其导出到 S3。

问题:

a) 我们能否在管道中指定 GSI 名称 - 因为使用数据管道查询大型 table 由于超时问题而被取消。 [管道配置的最长等待时间为 6 小时,已达到并被取消]? b) 有没有更好的方法可以使用 GSI 索引从 table 快速创建导出转储?

请分享您的观点。

此致, 基肖尔

您不能在管道中指定 GSI。您可以为 dynamodb 节点指定的可用选项列表已给出 here。数据管道服务实际上为使用并行 table 扫描的导出作业创建了一个 EMR 集群。您可以尝试为您的节点使用更大的实例大小来加快进程。

由于您的 table 有数百万条记录,请确保您已配置足够的读取吞吐量。即使您的预置吞吐量很高,导出速度也取决于为导出作业分配的预置吞吐量百分比。这在 AWS 管道文档 here.

中进行了描述