爬虫从 DynamoDB 读取时超出读取容量
Crawler exceeds read capacity when reading from DynamoDB
我正在尝试使用 AWS Glue 将我的 DynamoDB table 导出到 S3。对于粘合作业,我需要在粘合数据目录中创建一个 table。为了让我的 DynamoDB table 列在数据目录中,我需要 运行 一个爬虫(以确定 table 架构,我想)。当 运行 连接爬虫时,它开始从 DynamoDB 读取大量数据,这超出了我尝试提供的任何读取容量单位。
不幸的是,我在控制台和 API 中都找不到在确定架构时更改给定爬虫的任何参数的方法。
我想如果我可以更改爬虫以读取少量数据或为 DynamoDB 手动指定模式 tables 将解决我的问题。您对如何执行此操作有任何想法吗?
或者,如果 Glue 不是合适的工具,您可以建议将 DynamoDB tables 导出到 S3 的其他哪些方法?
您正在为此寻找 Amazon DataPipeline 服务!有一个内置模板,需要您将 S3 存储桶放入要导出 table 的位置。您需要做的就是填写参数,然后 运行 管道。您可以根据需要将其安排到 运行,也可以只安排一次。有关详细信息,请参阅下面的 link。
https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-template-exportddbtos3.html
我正在尝试使用 AWS Glue 将我的 DynamoDB table 导出到 S3。对于粘合作业,我需要在粘合数据目录中创建一个 table。为了让我的 DynamoDB table 列在数据目录中,我需要 运行 一个爬虫(以确定 table 架构,我想)。当 运行 连接爬虫时,它开始从 DynamoDB 读取大量数据,这超出了我尝试提供的任何读取容量单位。
不幸的是,我在控制台和 API 中都找不到在确定架构时更改给定爬虫的任何参数的方法。
我想如果我可以更改爬虫以读取少量数据或为 DynamoDB 手动指定模式 tables 将解决我的问题。您对如何执行此操作有任何想法吗?
或者,如果 Glue 不是合适的工具,您可以建议将 DynamoDB tables 导出到 S3 的其他哪些方法?
您正在为此寻找 Amazon DataPipeline 服务!有一个内置模板,需要您将 S3 存储桶放入要导出 table 的位置。您需要做的就是填写参数,然后 运行 管道。您可以根据需要将其安排到 运行,也可以只安排一次。有关详细信息,请参阅下面的 link。
https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-template-exportddbtos3.html