如何将 dynamodb 扫描限制到给定的分区键而不是读取整个 table

How to limit dynamodb scan to a given partition key and NOT read the entire table

理论上 table 有数十亿个条目。

分区键是代表给定设备 ID 的唯一 uuid。将有大约 10k 个唯一的 uuid。

排序键是数据收集时间的日期字符串。

每个项目都有一些数据字段。有几十个字段，因此为每个字段制作一个 GSI 是不合理的。对于我们的示例，假设我们正在寻找“dataOfInterest”字段。

我想在数据库中搜索“dataOfInterest = 'foobar' 的所有项目”- 最好在一个日期范围内进行搜索。据我所知，扫描操作是唯一的选择。有数十亿个条目......这不会是一个快速的过程（虽然我知道我可以一次将它分成运行多个操作 - 它仍然会像疯了一样吃掉 RCU）

值得注意的是，我只关心每次搜索的给定 uuid。换句话说，我真正关心的是“dataOfInterest = 'foobar' 的给定分区中的所有项目 ”。此外，最好使用排序键给出“给定分区 内的所有项目 ，其中 dataOfInterest = 'foobar' 介于 1 月 1 日和 2 月 28 日之间”

扫描操作允许您使用过滤表达式限制结果，这样我就可以获得单个分区的结果......但它仍然读取整个 table 并且过滤在之前完成返回数据给你。 https://docs.aws.amazon.com/amazondynamodb/latest/APIReference/API_Scan.html

是否有 AWS API 执行仅读取给定分区的类似扫描操作？是否有其他方法可以实现此目的（也许重新架构数据库？）

如@jarmod 所说，您可以使用查询并指定 UUID 的 PK。然后，您可以将时间戳放入 SK 中并过滤 dataOfInterest 值（未索引），或者为了提高效率并使所有内容都被索引，您可以构建一个 dataOfInterest#timestamp 的复合 SK，然后对foobar#time1 到 foobar#time2 的 SK。这使得这个查询完美地优化了索引。

当然，这会使纯粹的 timestamp-based 查询变得不那么简单。因此，您要么对这些进行多个查询，要么，如果您希望两个查询都有效，请在 GSI 中设置此复合 SK 并使用它来解决此查询。

如何将 dynamodb 扫描限制到给定的分区键而不是读取整个 table

How to limit dynamodb scan to a given partition key and NOT read the entire table

amazon-web-services

amazon-dynamodb

dynamodb-queries