Hbase:只有每个单元格的第一个版本
Hbase: Having just the first version of each cell
我想知道如何以仅存储每个单元格的第一个版本的方式配置 Hbase?假设下面的 Htable:
row_key cf1:c1 timestamp
----------------------------------------
1 x t1
将("1","cf1:c2",t2)
放入ColumnDescriptor.DEFAULT_VERSIONS = 2
的场景后,上述Htable变为:
row_key cf1:c1 timestamp
----------------------------------------
1 x t1
1 x t2
其中 t2>t1
.
我的问题是如何改变这种情况,使单元格的第一个版本成为唯一可以存储和检索的版本。我的意思是在提供的示例中,唯一的版本是 't1'
一个!因此,我想以一种忽略重复项插入的方式更改 hbase。
我知道将 Htable 的 VERSIONS 设置为 1 并基于 Long.MAX_VALUE - System.currentTimeMillis()
放置可以解决我的问题,但我不知道这是不是最好的解决方案?!将 tstamp 更改为 Long.MAX_VALUE - System.currentTimeMillis()
有什么注意事项?它有任何性能问题吗?
您可以插入带有 Long.MAX_VALUE - timestamp
的 Put
并将 table 配置为仅存储 1 个版本(最大版本 => 1)。这样只有第一个(最早的)Put 将被 Scan 返回,因为所有连续的 Put 将具有较小的时间戳值。
我能想到的策略有两种:
1。一个版本+倒置时间戳
将 Htable 的 VERSIONS
设置为 1 并根据 Long.MAX_VALUE - System.currentTimeMillis()
进行放置通常可以正常工作并且没有任何重大性能问题。
写入时:
- 当同一个cell的多个版本写入hbase时,在任何时间点,所有版本都会被写入(对性能没有任何影响)。压缩后只有具有最高时间戳的单元将存活。
- 此方案中具有最高时间戳的单元格是客户端写入的具有最低值
System.currentTimeMillis()
的单元格。应该注意的是,这实际上可能不是首先尝试写入单元格的机器,因为 hbase 客户端可能不同步。
已读:
- 当发现同一单元格的多个版本时,将在那时进行修剪。这可能随时发生,因为您的写入可能随时发生,即使在压缩之后。这对性能有非常轻微的影响。
2。检查并放置
要通过原子性获得真正的排序,意味着只有第一个到达区域服务器的写入才会成功,您可以使用checkAndPut
操作:
来自docs:
public boolean checkAndPut(byte[] row, byte[] family, byte[] qualifier, byte[] value, Put put) throws IOException
Atomically checks if a row/family/qualifier value matches the expected
value. If it does, it adds the put. If the passed value is null, the
check is for the lack of column (ie: non-existance)`
因此,通过将 value
设置为 null
,您的 Put
只有在单元格不存在时才会成功。如果您的 Put 成功,那么 return 值将为真。这提供了真正的原子性,但以写入性能为代价。
写入时:
- 设置行锁并在检查是否存在之前在内部发出
Get
。一旦确认不存在,就会发出看跌期权。正如您所想象的那样,这对每次写入都有相当大的性能影响,因为现在每次写入还涉及读取和锁定。
- 在压缩过程中不需要发生任何事情,因为只有一个 Put 会进入 hbase。这始终是第一个到达区域服务器的 Put。
- 需要注意的是,使用
checkAndMutate
无法批处理此类 checkAndPut
操作,因为每个 Put 都需要自己检查。这意味着每个 put 都需要是一个单独的请求,这意味着您在批量写入时也会支付延迟成本。
已读:
- 只有一个版本会进入 Hbase,因此这里没有影响。
策略选择:
如果真正的排序真的很重要,或者您可能需要在写入 hbase 之后或之前读取每一行(例如,以确定您的写入是否成功),您最好使用策略 2,否则,在所有其他情况下,我推荐策略 1,因为它的写入性能要好得多。在这种情况下,只需确保您的客户端正确时间同步即可。
我想知道如何以仅存储每个单元格的第一个版本的方式配置 Hbase?假设下面的 Htable:
row_key cf1:c1 timestamp
----------------------------------------
1 x t1
将("1","cf1:c2",t2)
放入ColumnDescriptor.DEFAULT_VERSIONS = 2
的场景后,上述Htable变为:
row_key cf1:c1 timestamp
----------------------------------------
1 x t1
1 x t2
其中 t2>t1
.
我的问题是如何改变这种情况,使单元格的第一个版本成为唯一可以存储和检索的版本。我的意思是在提供的示例中,唯一的版本是 't1'
一个!因此,我想以一种忽略重复项插入的方式更改 hbase。
我知道将 Htable 的 VERSIONS 设置为 1 并基于 Long.MAX_VALUE - System.currentTimeMillis()
放置可以解决我的问题,但我不知道这是不是最好的解决方案?!将 tstamp 更改为 Long.MAX_VALUE - System.currentTimeMillis()
有什么注意事项?它有任何性能问题吗?
您可以插入带有 Long.MAX_VALUE - timestamp
的 Put
并将 table 配置为仅存储 1 个版本(最大版本 => 1)。这样只有第一个(最早的)Put 将被 Scan 返回,因为所有连续的 Put 将具有较小的时间戳值。
我能想到的策略有两种:
1。一个版本+倒置时间戳
将 Htable 的 VERSIONS
设置为 1 并根据 Long.MAX_VALUE - System.currentTimeMillis()
进行放置通常可以正常工作并且没有任何重大性能问题。
写入时:
- 当同一个cell的多个版本写入hbase时,在任何时间点,所有版本都会被写入(对性能没有任何影响)。压缩后只有具有最高时间戳的单元将存活。
- 此方案中具有最高时间戳的单元格是客户端写入的具有最低值
System.currentTimeMillis()
的单元格。应该注意的是,这实际上可能不是首先尝试写入单元格的机器,因为 hbase 客户端可能不同步。
已读:
- 当发现同一单元格的多个版本时,将在那时进行修剪。这可能随时发生,因为您的写入可能随时发生,即使在压缩之后。这对性能有非常轻微的影响。
2。检查并放置
要通过原子性获得真正的排序,意味着只有第一个到达区域服务器的写入才会成功,您可以使用checkAndPut
操作:
来自docs:
public boolean checkAndPut(byte[] row, byte[] family, byte[] qualifier, byte[] value, Put put) throws IOException
Atomically checks if a row/family/qualifier value matches the expected value. If it does, it adds the put. If the passed value is null, the check is for the lack of column (ie: non-existance)`
因此,通过将 value
设置为 null
,您的 Put
只有在单元格不存在时才会成功。如果您的 Put 成功,那么 return 值将为真。这提供了真正的原子性,但以写入性能为代价。
写入时:
- 设置行锁并在检查是否存在之前在内部发出
Get
。一旦确认不存在,就会发出看跌期权。正如您所想象的那样,这对每次写入都有相当大的性能影响,因为现在每次写入还涉及读取和锁定。 - 在压缩过程中不需要发生任何事情,因为只有一个 Put 会进入 hbase。这始终是第一个到达区域服务器的 Put。
- 需要注意的是,使用
checkAndMutate
无法批处理此类checkAndPut
操作,因为每个 Put 都需要自己检查。这意味着每个 put 都需要是一个单独的请求,这意味着您在批量写入时也会支付延迟成本。
已读:
- 只有一个版本会进入 Hbase,因此这里没有影响。
策略选择:
如果真正的排序真的很重要,或者您可能需要在写入 hbase 之后或之前读取每一行(例如,以确定您的写入是否成功),您最好使用策略 2,否则,在所有其他情况下,我推荐策略 1,因为它的写入性能要好得多。在这种情况下,只需确保您的客户端正确时间同步即可。