在使用 kubernetes 部署的 3 节点 cassandra 集群中更新记录时出现问题

Issue while updating a record in 3 node cassandra cluster deployed using kubernetes

我有一个 3 节点 Cassandra 集群,复制因子为 2,读写一致性设置为 QUORUM。我们正在使用 Spring 数据 Cassandra。 所有基础设施都使用 Kubernetes 部署。

现在在正常使用情况下,许多记录被插入到 Cassandra table。然后我们尝试使用 repo 的保存方法 modify/update 其中一条记录,如下所示:

ChunkMeta tmpRec = chunkMetaRepository.save(chunkMeta);

执行上述语句后,我们没有看到任何异常或错误。但是此更新仍然间歇性地失败。那就是当我们检查数据库中的记录时,有时它会成功更新,而其他时候它会失败。同样在上面的查询中,当我们打印 tmpRec 时,它包含更新后的正确值。仍然在数据库中,这些更新的值没有得到反映。

我们检查了所有节点上的 Cassandra 传输 TRACE 日志,发现我们的查询正在那里记录并正在执行。

现在另一个奇怪的观察是,如果我使用单个 Cassandra 节点(在 Kubernetes 中),或者如果我们使用 Ansible 在基础设施之上部署(Ansible 甚至适用于 3 个节点)。

看起来有些问题专门针对 Cassandra 的 Kubernetes 3 节点部署。主要看起来像是导致此问题的节点之间的复制。

Docker 文件的内容:

FROM ubuntu:16.04

RUN apt-get update && apt-get install -y python sudo lsof vim dnsutils net-tools && apt-get clean && \
    addgroup testuser && useradd -g testuser testuser && usermod --password testuser testuser;

RUN mkdir -p /opt/test && \
    mkdir -p /opt/test/data;

ADD jre8.tar.gz /opt/test/
ADD apache-cassandra-3.11.0-bin.tar.gz /opt/test/

RUN chmod 755 -R /opt/test/jre && \
    ln -s /opt/test/jre/bin/java /usr/bin/java && \
    mv /opt/test/apache-cassandra* /opt/test/cassandra;

RUN mkdir -p /opt/test/cassandra/logs;

ENV JAVA_HOME /opt/test/jre
RUN export JAVA_HOME

COPY version.txt /opt/test/cassandra/version.txt

WORKDIR /opt/test/cassandra/bin/

RUN mkdir -p /opt/test/data/saved_caches && \
    mkdir -p /opt/test/data/commitlog && \
    mkdir -p /opt/test/data/hints && \
    chown -R testuser:testuser /opt/test/data && \
    chown -R testuser:testuser /opt/test;

USER testuser

CMD cp /etc/cassandra/cassandra.yml ../conf/conf.yml && perl -p -e 's/$\{([^}]+)\}/defined $ENV{} ? $ENV{} : $&/eg; s/$\{([^}]+)\}//eg' ../conf/conf.yml > ../conf/cassandra.yaml && rm ../conf/conf.yml && ./cassandra -f

请注意 conf.yml 基本上是 cassandra.yml 具有与 Cassandra 相关的属性的文件。

谢谢你们,很抱歉延迟回复。

我找到了此行为的根本原因。实际上很久以后我发现 Cassandra 依赖于客户端时间戳(用于列时间戳)。客户端是指不同的 pod(微服务实例)。 在我的例子中,不同主机上有 3 个容器 运行。最后,经过大量的努力和研究,我发现不同主机上的这些容器 运行 之间存在轻微的时钟漂移。后来我在所有这些主机上安装了 NTP 服务器,这有助于我们在这些节点之间保持时间同步。与 NTP 类似,您还可以安装任何时间 syn server/utility 并摆脱节点时钟漂移问题。

虽然这对我有帮助,也将帮助其他人保持节点时钟同步。但在某些极端情况下,我发现基于使用 NTP 服务器配置的同步时间,在某些情况下,您会发现节点之间存在 2-3 秒的漂移(在我的情况下,NTP 同步时间为 2 秒)。这可以通过减少节点间的同步时间来进一步减少。

但最终根本原因只是跨节点 运行 微服务的时钟漂移。