遍历 dynamodb 时出现 ProvisionedThroughputExceededException 错误 table

Getting ProvisionedThroughputExceededException error when iterating over dynamodb table

我正在尝试将 DynamoDB table 备份到 S3。由于某种原因,通过在 AWS 控制台上导出 does not work 并且由于 table 不是那么大,我正在尝试使用 boto-基于脚本。这是我的脚本的主要部分:

import boto.dynamodb2
from boto.dynamodb2.table import Table
c_ddb2 = boto.dynamodb2.connect_to_region(...)
table  = Table("myTable",connection=c_ddb2)
# also connect to S3 
scanres = table.scan()
for item in scanres:
    # process and store next item

我遇到以下异常:

Traceback (most recent call last):
  File "/home/.../ddb2s3.py", line 155, in <module>
    main()
  File "/home/.../ddb2s3.py", line 124, in main
    for it in scanres:
  File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/results.py", line 62, in next
    self.fetch_more()
  File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/results.py", line 144, in fetch_more
    results = self.the_callable(*args, **kwargs)
  File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/table.py", line 1213, in _scan
    **kwargs
  File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/layer1.py", line 1712, in scan
    body=json.dumps(params))
  File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/layer1.py", line 2100, in make_request
    retry_handler=self._retry_handler)
  File "/usr/local/lib/python2.7/dist-packages/boto/connection.py", line 932, in _mexe
    status = retry_handler(response, i, next_sleep)
  File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/layer1.py", line 2134, in _retry_handler
    response.status, response.reason, data)
boto.dynamodb2.exceptions.ProvisionedThroughputExceededException: ProvisionedThroughputExceededException: 400 Bad Request
{u'message': u'The level of configured provisioned throughput for the table was exceeded. Consider increasing your provisioning level with the UpdateTable API', u'__type': u'com.amazonaws.dynamodb.v20120810#ProvisionedThroughputExceededException'}

读取配置的吞吐量设置为 1000,因此应该足够了。当我 运行 脚本并出现异常时,写入配置 t/p 设置为较低的值,我不想调整它,因为它会干扰偶尔的批量写入 table ,但为什么我需要触摸它?

为什么会出现此错误? MyTable 的 AWS 控制台监控显示读取次数非常少,因此它远低于配置的 1000。我做错了什么?

如果您已在 AWS 管理控制台中检查并验证即使读取容量远低于配置容量时也会发生限制事件,最可能的答案是您的哈希键分布不均。随着您的 DynamoDB table 大小和容量的增长,DynamoDB 服务会自动将您的 table 拆分为多个分区。然后它将使用项目的哈希键来确定存储项目的分区。此外,您配置的读取容量也会在分区之间平均分配。

如果你有一个分布良好的散列键,这一切都可以正常工作。但是,如果您的哈希键分布不均,则可能会导致所有或大部分读取都来自单个分区。因此,例如,如果您有 10 个分区并且您在 table 上的配置读取容量为 1000,则每个分区的读取容量为 100。如果您的所有读取都命中一个分区,您将受到限制在 100 个读取单元而不是 1000 个读取单元时。

不幸的是,真正解决这个问题的唯一方法是选择一个更好的散列并用这些散列值重写 table。

aws-sdk 现在可以将重试逻辑应用于 DynamoDB(参见 the config docs。)

因此,请考虑以下设置作为可能的帮助。

AWS.config.update({
  maxRetries: 15,
  retryDelayOptions: {base: 500}
});