Redis 排序集中的大小写不可知词典排序

Case agnostic lexicographical ordering in redis sorted set

我有一个很大的字符串列表(包含用户名,大约 350K 条记录)。我需要按词典顺序存储它,并且应该能够有效地检索成员存在*和成员相似度**。 Redis 排序集看起来像作业的数据类型。

然而,我似乎在第一关就跌倒了。具体来说,我的一个关键要求是将不同的字母大小写放在一起,只要它们以相同的字母开头。例如。 Benderbender 最终应该并排排列。然而,redis 的排序集严格遵循字典顺序规则,因此所有以大写字母开头的字符串默认排在所有以小写字母开头的字符串之前(例如 Za 之前排序,但在 A).

有什么方法可以解决这个问题并仍然使用 redis 排序集来满足我的要求?仅供参考,我使用的是 redis 2.8.4 版。提前致谢。


*成员存在:给定一个用户名,检查它是否已经存在于存储集中

**会员相似度:给定一个用户名,拉出N个存储的最像给定用户名的用户名

您需要对名称进行一些特殊编码。下面是一个例子。

假设所有名称的长度都小于 100 个字符。对于每个名称,执行以下步骤对其进行编码:

  1. 记录2位大写字母的索引:对于BeNd,索引为0002
  2. 将名称的大写字母转换为小写字母以获得小写名称:从BeNdbend
  3. 将索引附加到小写名称以获得 encoded name:从 bendbend0002
  4. encoded name 添加到排序集合中:zadd key 0 bend0002

这样,BeNdbend应该并排排列。

当您想进行搜索时,使用相同的编码方法对给定名称进行编码,进行搜索,并对结果进行解码。由于encoded name记录的是大写字母的索引,所以很容易解码。