估计行大小 HBase/HyperTable
Estimate row size HBase/HyperTable
如果我知道我将存储哪种数据(考虑到压缩),是否有一种方法可以估算行大小?
我在看类似的东西
bson_id |字符串(最多 200 个字符)|整数32 |整数32 |整数32 |布尔 |布尔 |日期时间 |日期时间 |日期时间 | int32
我正在尝试为大约 2 万亿条记录(如上面的记录)以及大约 x20 条记录寻找最佳数据库解决方案
bson_id | bson_id
欢迎任何其他建议
为非常笼统的答案排序。
据我所知,只有使用虚拟数据进行测试才是衡量此类事情的可靠方法。 “Dummy”在这里的意思是假的但不重复,因为强烈的重复可能会破坏压缩估计。
比如你可以放1m, 2m, 4m, 8m, 32m, 128m等等...记录下来看看有没有线性相关。如果它是线性的,您可以通过一些意外事件轻松推断出数十亿和数万亿条记录的值。
在此类测试中,您还可以根据需要检查性能。例如,您可以增加 HDFS 的复制因子以提高读取性能。
最后你可以检查压缩观点。
祝 BigData 好运!
如果我知道我将存储哪种数据(考虑到压缩),是否有一种方法可以估算行大小?
我在看类似的东西
bson_id |字符串(最多 200 个字符)|整数32 |整数32 |整数32 |布尔 |布尔 |日期时间 |日期时间 |日期时间 | int32
我正在尝试为大约 2 万亿条记录(如上面的记录)以及大约 x20 条记录寻找最佳数据库解决方案
bson_id | bson_id
欢迎任何其他建议
为非常笼统的答案排序。
据我所知,只有使用虚拟数据进行测试才是衡量此类事情的可靠方法。 “Dummy”在这里的意思是假的但不重复,因为强烈的重复可能会破坏压缩估计。
比如你可以放1m, 2m, 4m, 8m, 32m, 128m等等...记录下来看看有没有线性相关。如果它是线性的,您可以通过一些意外事件轻松推断出数十亿和数万亿条记录的值。
在此类测试中,您还可以根据需要检查性能。例如,您可以增加 HDFS 的复制因子以提高读取性能。
最后你可以检查压缩观点。
祝 BigData 好运!