Cassandra:最佳分区大小
Cassandra : optimal partition size
我计划有一个像这样的简单 table(简单 key/value 用例):
CREATE TABLE my_data (
id bigint,
value blob,
PRIMARY KEY (id)
)
具有以下特征:
如您所见,一个分区 = 一个 blob(值)
每个值总是通过相应的键访问
每个值都是最大 1MB 的 blob(平均也是 1MB)
对于 1MB 的 blob,它提供了 6000 万个分区
您如何看待 1MB 的 blob? Cassandra 可以吗?
事实上,我可以进一步划分我的数据,以使用 1ko blob,但在那种情况下,它会导致 Cassandra 上有更多的分区(超过 6 亿?),以及更多的分区来检索数据对于相同的客户端查询..
谢谢
一般建议将分区大小保持在接近 100MB 的水平,尽管这不是硬性限制。在一些边缘情况下,分区可以超过 1GB,并且只要您愿意接受权衡,对于某些工作负载来说仍然是可以接受的。
但是在您的情况下,1MB blob 是强烈建议,但同样不是硬性限制。如果您要进行合理的负载测试,您会注意到较大的 blob 会显着影响性能。
6亿分区完全不是问题。 Cassandra 旨在处理数十亿、数万亿甚至更多的分区。干杯!
我计划有一个像这样的简单 table(简单 key/value 用例):
CREATE TABLE my_data (
id bigint,
value blob,
PRIMARY KEY (id)
)
具有以下特征:
如您所见,一个分区 = 一个 blob(值)
每个值总是通过相应的键访问
每个值都是最大 1MB 的 blob(平均也是 1MB)
对于 1MB 的 blob,它提供了 6000 万个分区
您如何看待 1MB 的 blob? Cassandra 可以吗?
事实上,我可以进一步划分我的数据,以使用 1ko blob,但在那种情况下,它会导致 Cassandra 上有更多的分区(超过 6 亿?),以及更多的分区来检索数据对于相同的客户端查询..
谢谢
一般建议将分区大小保持在接近 100MB 的水平,尽管这不是硬性限制。在一些边缘情况下,分区可以超过 1GB,并且只要您愿意接受权衡,对于某些工作负载来说仍然是可以接受的。
但是在您的情况下,1MB blob 是强烈建议,但同样不是硬性限制。如果您要进行合理的负载测试,您会注意到较大的 blob 会显着影响性能。
6亿分区完全不是问题。 Cassandra 旨在处理数十亿、数万亿甚至更多的分区。干杯!