在不使用分区键的情况下查询 DynamoDB table 的全局二级索引

Querying a Global Secondary Index of a DynamoDB table without using the partition key

我有一个 DynamoDB table,分区键为 userID,没有排序键。 table 在每个项目中也有一个 timestamp 属性。我想检索在指定范围内具有时间戳的所有项目(无论 userID 即跨越所有分区)。 在阅读文档并搜索 Stack Overflow (here) 后,我发现我需要为我的 table 创建一个 GSI。 因此,我使用以下键创建了一个 GSI:

我正在使用以下代码通过 Java SDK 查询索引:

String lastWeekDateString = getLastWeekDateString();
AmazonDynamoDB client = AmazonDynamoDBClientBuilder.standard().build();
DynamoDB dynamoDB = new DynamoDB(client);

Table table = dynamoDB.getTable("user table");
Index index = table.getIndex("userID-timestamp-index");

QuerySpec querySpec = new QuerySpec()
    .withKeyConditionExpression("timestamp > :v_timestampLowerBound")
    .withValueMap(new ValueMap()
            .withString(":v_timestampLowerBound", lastWeekDateString));

    ItemCollection<QueryOutcome> items = index.query(querySpec);
    Iterator<Item> iter = items.iterator();

while (iter.hasNext()) {
    Item item = iter.next();
    // extract item attributes here
}

执行此代码时出现以下错误:

Query condition missed key schema element: userID

据我所知,我应该能够仅使用排序键查询 GSI,而无需对分区键给出任何条件。请帮助我了解我的实施有什么问题。谢谢。

编辑: 阅读线程 here 后发现,我们无法查询仅具有排序键范围的 GSI。 那么,如果有的话,有什么替代方法可以通过对属性的范围查询来查询整个 table? 我在该线程中发现的一个建议是使用年份作为分区键。如果所需范围跨越多年,这将需要多次查询。此外,这不会在所有分区之间均匀分布数据,因为只有与当年对应的分区将用于一整年的插入。请提出任何替代方案。

使用dynamodb Query操作时,至少要指定Partition key。这就是为什么您会收到需要 userId 的错误。 (在AWS Query docs

The condition must perform an equality test on a single partition key value.

在没有分区键的情况下获取项目的唯一方法是执行扫描操作(但这不会按您的排序键排序!)

如果您想要对所有项目进行排序,则必须创建一个 GSI,其分区键对于您需要的所有项目都是相同的(例如,为所有项目创建一个新属性,例如“类型“: “物品”)。然后您可以查询 GSI 并指定 #type=:item

QuerySpec querySpec = new QuerySpec()
    .withKeyConditionExpression(":type = #item AND timestamp > :v_timestampLowerBound")
    .withKeyMap(new KeyMap()
            .withString("#type", "type"))
    .withValueMap(new ValueMap()
            .withString(":v_timestampLowerBound", lastWeekDateString)
            .withString(":item", "item"));

对于任何使用 DDB 的自定义查询要求,始终好的解决方案是为 GSI 设计正确的主键方案。 在设计DDB的主键时,主要原则是hash key应该设计用于对整个item进行分区,sort key应该设计用于对分区内的item进行排序。

话虽如此,我还是建议您使用时间戳的年份作为哈希键,使用月份-日期作为排序键。 在这种情况下,您需要进行的查询最多只有 2 个。 你是对的,你应该尽可能避免过滤或扫描。

例如,您可以这样查询 如果开始日期的年份和结束日期的年份相同,则只需要一个查询:

.withKeyConditionExpression("#year = :year and #month-date > :start-month-date and #month-date < :end-month-date")

还有这样的:

.withKeyConditionExpression("#year = :start-year and #month-date > :start-month-date")

.withKeyConditionExpression("#year = :end-year and #month-date < :end-month-date")

最后,您应该合并两个查询的结果集。 这最多只消耗2个读取容量单位。

为了更好地比较排序键,您可能需要使用 UNIX 时间戳。

谢谢