我应该如何为大小分层压缩策略选择参数?

How should I choose parameters for size tiered compaction strategy?

我有这两个特殊用例:

  1. 流式作业,每 5 秒写入 30mb
  2. 批处理作业,每天早上写入 500 GB

我 table 1.5 年的 TTL。

这些写入可以包含许多更新,因此,根据此处 table:

我应该使用 SizeTieredCompactionStrategy。但是,如何为它选择正确的参数?

它有几个参数:

bucket_high

bucket_low

min_sstable_size

min_threshold

max_threshold

作为一般命题,运维人员很少需要配置 size-tiered 压缩子属性。

除非您对 Cassandra 非常有经验,否则没有任何理由重新配置 STCS 的默认值。这就是为什么它是开箱即用的默认压缩策略并且适用于大多数工作负载的原因。

例外情况是将 TWCS 用于真正的时间序列用例,将 LCS 用于读取量大而几乎没有任何写入的情况。干杯!