估计行大小 HBase/HyperTable

Estimate row size HBase/HyperTable

如果我知道我将存储哪种数据(考虑到压缩),是否有一种方法可以估算行大小?

我在看类似的东西

bson_id |字符串(最多 200 个字符)|整数32 |整数32 |整数32 |布尔 |布尔 |日期时间 |日期时间 |日期时间 | int32

我正在尝试为大约 2 万亿条记录(如上面的记录)以及大约 x20 条记录寻找最佳数据库解决方案

bson_id | bson_id

欢迎任何其他建议

为非常笼统的答案排序。

据我所知,只有使用虚拟数据进行测试才是衡量此类事情的可靠方法。 “Dummy”在这里的意思是假的但不重复,因为强烈的重复可能会破坏压缩估计。

比如你可以放1m, 2m, 4m, 8m, 32m, 128m等等...记录下来看看有没有线性相关。如果它是线性的,您可以通过一些意外事件轻松推断出数十亿和数万亿条记录的值。

在此类测试中,您还可以根据需要检查性能。例如,您可以增加 HDFS 的复制因子以提高读取性能。

最后你可以检查压缩观点。

祝 BigData 好运!