Aerospike - 存储少量大值

Aerospike - Store small quantity of large values

aerospike

场景
假设我要为每个用户存储最多 5 个字节数组，每个 50kB。

可能的实现：

1) 每条记录一个字节数组，由辅助键索引。
优点：快速 read/write.
缺点：高基数查询（每个查询最多 5 个结果）。如果频繁访问字节数组，则不利于水平缩放。

2) 单独 bin 中单个记录中的所有字节数组
优点：快速阅读
中性：块大小必须大于 250kB
缺点：写入速度慢（一次更改意味着重写所有字节数组）。

3) 将字节数组存储在 LLIST LDT
优点：避免解决方案 (1) 和 (2)
的缺点缺点：LDT 通常很慢

4) 将每个字节数组存储在单独的记录中，键入一个 UUID。将 UUID 列表存储在另一条记录中。
优点：写入每个字节数组不需要重写所有数组。二级索引没有低基数问题。避免使用 LDT。
缺点：客户端读取是两阶段的：从元记录中获取 UUID 列表，然后对每个 UUID 进行多次获取（很慢？）

5) 将每个字节数组存储为单独的记录，使用预先确定的主键方案（例如userid_index，例如123_0，123_1， 123_2、123_3、123_4) 优点：避免两阶段读取缺点：理论上 与另一个用户的冲突可能性（例如 user1_index1 和 user2_index2 产品相同的哈希值）。我知道这是（非常非常）低的概率，但仍然首选避免（想象一个用户由于冲突能够读取另一个用户的字节数组）。

我的评价
对于平衡 read/write 或高 read/low 写入情况，请使用 #2（一个记录，多个 bin）。重写成本更高，但避免了其他缺点（LDT 惩罚、2 阶段读取）。

对于高 (re)write/low 读取情况，请使用 #3 (LDT)。这避免了在更新其中一个字节数组时必须重写所有字节数组，因为记录是写时复制的。

问题
考虑到当前的数据模式（少量，大对象），哪种实现更可取？你同意我的评价（以上）吗？

这是一些输入。（我想透露一下，我确实在 Aerospike 工作）。

请避免#3。不要使用 LDT，因为该功能肯定不如平台的其余部分成熟，尤其是在节点 leave/join 一个集群的集群重新平衡（迁移）情况下的性能/可靠性方面。

我会尽量坚持基本的 Key/Value 交易。这应该始终是最快和最具可扩展性的。正如您所指出的，选项 #1 不会扩展。二级索引也有内存开销，目前不允许快速启动（无论如何仅限企业版）。

对于高写入负载，您在#2 上也是正确的，尤其是如果您要始终更新 1 个 bin...

因此，剩下选项 #4 和 #5。对于选项#5，碰撞实际上不会发生。你可以复习一下数学，它根本不会发生。如果是这样，您将成名并可以发表论文 :)（甚至可能会因为发现碰撞而付出代价）。另外，请注意，您可以选择将密钥存储在记录中，这将为您提供 'key check' 的写入，这应该非常便宜（因为记录在写入之前无论如何都会被读取）。选项 #4 也可以，它只会进行额外的读取（应该非常快）。

这完全取决于你想要额外复杂的地方。因此，如果您在决定之前有足够的条件，可以在这两个选项之间做一些简单的基准测试。

Aerospike - 存储*少量*大值

Aerospike - Store *small quantity* of large values

aerospike

Aerospike - 存储少量大值

Aerospike - Store small quantity of large values