Hbase:只有每个单元格的第一个版本

Hbase: Having just the first version of each cell

我想知道如何以仅存储每个单元格的第一个版本的方式配置 Hbase?假设下面的 Htable:

row_key          cf1:c1           timestamp
----------------------------------------
1                  x                 t1

("1","cf1:c2",t2)放入ColumnDescriptor.DEFAULT_VERSIONS = 2的场景后,上述Htable变为:

row_key          cf1:c1           timestamp
----------------------------------------
1                  x                 t1
1                  x                 t2

其中 t2>t1.

我的问题是如何改变这种情况,使单元格的第一个版本成为唯一可以存储和检索的版本。我的意思是在提供的示例中,唯一的版本是 't1' 一个!因此,我想以一种忽略重复项插入的方式更改 hbase。

我知道将 Htable 的 VERSIONS 设置为 1 并基于 Long.MAX_VALUE - System.currentTimeMillis() 放置可以解决我的问题,但我不知道这是不是最好的解决方案?!将 tstamp 更改为 Long.MAX_VALUE - System.currentTimeMillis() 有什么注意事项?它有任何性能问题吗?

您可以插入带有 Long.MAX_VALUE - timestampPut 并将 table 配置为仅存储 1 个版本(最大版本 => 1)。这样只有第一个(最早的)Put 将被 Scan 返回,因为所有连续的 Put 将具有较小的时间戳值。

我能想到的策略有两种:

1。一个版本+倒置时间戳

将 Htable 的 VERSIONS 设置为 1 并根据 Long.MAX_VALUE - System.currentTimeMillis() 进行放置通常可以正常工作并且没有任何重大性能问题。

写入时:

  • 当同一个cell的多个版本写入hbase时,在任何时间点,所有版本都会被写入(对性能没有任何影响)。压缩后只有具有最高时间戳的单元将存活。
  • 此方案中具有最高时间戳的单元格是客户端写入的具有最低值 System.currentTimeMillis() 的单元格。应该注意的是,这实际上可能不是首先尝试写入单元格的机器,因为 hbase 客户端可能不同步。

已读:

  • 当发现同一单元格的多个版本时,将在那时进行修剪。这可能随时发生,因为您的写入可能随时发生,即使在压缩之后。这对性能有非常轻微的影响。

2。检查并放置

要通过原子性获得真正的排序,意味着只有第一个到达区域服务器的写入才会成功,您可以使用checkAndPut操作:

来自docs

public boolean checkAndPut(byte[] row, byte[] family, byte[] qualifier, byte[] value, Put put) throws IOException

Atomically checks if a row/family/qualifier value matches the expected value. If it does, it adds the put. If the passed value is null, the check is for the lack of column (ie: non-existance)`

因此,通过将 value 设置为 null,您的 Put 只有在单元格不存在时才会成功。如果您的 Put 成功,那么 return 值将为真。这提供了真正的原子性,但以写入性能为代价。

写入时:

  • 设置行锁并在检查是否存在之前在内部发出 Get。一旦确认不存在,就会发出看跌期权。正如您所想象的那样,这对每次写入都有相当大的性能影响,因为现在每次写入还涉及读取和锁定。
  • 在压缩过程中不需要发生任何事情,因为只有一个 Put 会进入 hbase。这始终是第一个到达区域服务器的 Put。
  • 需要注意的是,使用 checkAndMutate 无法批处理此类 checkAndPut 操作,因为每个 Put 都需要自己检查。这意味着每个 put 都需要是一个单独的请求,这意味着您在批量写入时也会支付延迟成本。

已读:

  • 只有一个版本会进入 Hbase,因此这里没有影响。

策略选择:

如果真正的排序真的很重要,或者您可能需要在写入 hbase 之后或之前读取每一行(例如,以确定您的写入是否成功),您最好使用策略 2,否则,在所有其他情况下,我推荐策略 1,因为它的写入性能要好得多。在这种情况下,只需确保您的客户端正确时间同步即可。