在 rocksdb 中按键排序

Question

我试图在 java 中比较大量数据和 2 个文件夹条目 folder1 和 folder2。每个文件夹包含多个文件，每个文件大小约为 10 MB。我在每个文件夹中有大约 100 个文件。每个文件都包含一个键值行（每个文件夹总共大约有 5 亿行）：

RFE023334343432-45,456677
RFE54667565765-5,465368
and son on..

第一步

首先，folder1 中所有文件的每一行都被读取并加载到 rocksdb 中，使用在我上面的例子中

key = RFE023334343432-45 and corresponding 
value = 456677

第二步

一旦我的 rocksdb 充满了 folder1 数据，对于 folder2 中读取的每一行，我调用 folder1 rocksdb get() 方法来检查为 folder2 行提取的密钥是否存在于 rocksdb 中。它 returns null 当我不存在时。请注意，我不能使用 rocksdb keyMayExist() 方法，因为当您操作大量数据时，它 returns 会产生误报。

当 folder1 中的数据根据键值排序时，性能是正确的。

但是当输入数据未排序时，我的持续时间乘以 3（我使用 shell 命令将它们打乱）。这很奇怪，因为在我的测试中我将 unsort folder1 复制到 folder2（只是复制我的文件夹）。因此，即使 folder1 未排序，folder2 也以与 folder1 完全相同的方式未排序。

我的问题是如何按键对 rocksdb 进行排序？

Answer 1

RocksDB 总是按键排序数据。您可以使用迭代器从 RocksDB 实例中获取 K/V 对。这是创建迭代器的API：https://github.com/facebook/rocksdb/blob/v6.22.1/include/rocksdb/db.h#L709-L716

在 rocksdb 中按键排序

Sorting by key in rocksdb

rocksdb

rocksdb-java