如何检查 Cassandra 在集群周围均匀分布数据

How can check Cassandra spread data evenly around the cluster

我是 Cassandra 的新手,我创建了一个具有以下规范的 Cluseter。

如何确保Cassandra在集群中均匀分布数据?

node count: 4
replication_factor: 3

table 架构:

CREATE TABLE space.user (
    id uuid PRIMARY KEY,
    firstname text,
    lastname text
) WITH bloom_filter_fp_chance = 0.01
    AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}
    AND comment = ''
    AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}
    AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}
    AND crc_check_chance = 1.0
    AND dclocal_read_repair_chance = 0.1
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND memtable_flush_period_in_ms = 0
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99PERCENTILE';

最简单的方法是使用 nodetool status - 你 can check Load 列中显示了多少 - 这是磁盘上的数据量,尽管它也可以计算数据未清理(如果您更改了拓扑,您可能需要 运行 nodetool cleanup 删除该数据)。

基本上,节点之间的差异应该不会太大,但这取决于您指定的数字 num_tokens。如果每台服务器有 8 个令牌,则与平均大小的差异可能为 +-10-12%。对于更多数量的令牌,差异可能更小。

但在你的情况下,我认为节点之间的差异不会很大,因为你的行非常小,第一个 name/last 名称应该非常大。