在使用 kubernetes 部署的 3 节点 cassandra 集群中更新记录时出现问题
Issue while updating a record in 3 node cassandra cluster deployed using kubernetes
我有一个 3 节点 Cassandra 集群,复制因子为 2,读写一致性设置为 QUORUM
。我们正在使用 Spring 数据 Cassandra。
所有基础设施都使用 Kubernetes 部署。
现在在正常使用情况下,许多记录被插入到 Cassandra table。然后我们尝试使用 repo 的保存方法 modify/update 其中一条记录,如下所示:
ChunkMeta tmpRec = chunkMetaRepository.
save
(chunkMeta);
执行上述语句后,我们没有看到任何异常或错误。但是此更新仍然间歇性地失败。那就是当我们检查数据库中的记录时,有时它会成功更新,而其他时候它会失败。同样在上面的查询中,当我们打印 tmpRec
时,它包含更新后的正确值。仍然在数据库中,这些更新的值没有得到反映。
我们检查了所有节点上的 Cassandra 传输 TRACE 日志,发现我们的查询正在那里记录并正在执行。
现在另一个奇怪的观察是,如果我使用单个 Cassandra 节点(在 Kubernetes 中),或者如果我们使用 Ansible 在基础设施之上部署(Ansible 甚至适用于 3 个节点)。
看起来有些问题专门针对 Cassandra 的 Kubernetes 3 节点部署。主要看起来像是导致此问题的节点之间的复制。
Docker 文件的内容:
FROM ubuntu:16.04
RUN apt-get update && apt-get install -y python sudo lsof vim dnsutils net-tools && apt-get clean && \
addgroup testuser && useradd -g testuser testuser && usermod --password testuser testuser;
RUN mkdir -p /opt/test && \
mkdir -p /opt/test/data;
ADD jre8.tar.gz /opt/test/
ADD apache-cassandra-3.11.0-bin.tar.gz /opt/test/
RUN chmod 755 -R /opt/test/jre && \
ln -s /opt/test/jre/bin/java /usr/bin/java && \
mv /opt/test/apache-cassandra* /opt/test/cassandra;
RUN mkdir -p /opt/test/cassandra/logs;
ENV JAVA_HOME /opt/test/jre
RUN export JAVA_HOME
COPY version.txt /opt/test/cassandra/version.txt
WORKDIR /opt/test/cassandra/bin/
RUN mkdir -p /opt/test/data/saved_caches && \
mkdir -p /opt/test/data/commitlog && \
mkdir -p /opt/test/data/hints && \
chown -R testuser:testuser /opt/test/data && \
chown -R testuser:testuser /opt/test;
USER testuser
CMD cp /etc/cassandra/cassandra.yml ../conf/conf.yml && perl -p -e 's/$\{([^}]+)\}/defined $ENV{} ? $ENV{} : $&/eg; s/$\{([^}]+)\}//eg' ../conf/conf.yml > ../conf/cassandra.yaml && rm ../conf/conf.yml && ./cassandra -f
请注意 conf.yml 基本上是 cassandra.yml 具有与 Cassandra 相关的属性的文件。
谢谢你们,很抱歉延迟回复。
我找到了此行为的根本原因。实际上很久以后我发现 Cassandra 依赖于客户端时间戳(用于列时间戳)。客户端是指不同的 pod(微服务实例)。
在我的例子中,不同主机上有 3 个容器 运行。最后,经过大量的努力和研究,我发现不同主机上的这些容器 运行 之间存在轻微的时钟漂移。后来我在所有这些主机上安装了 NTP 服务器,这有助于我们在这些节点之间保持时间同步。与 NTP 类似,您还可以安装任何时间 syn server/utility 并摆脱节点时钟漂移问题。
虽然这对我有帮助,也将帮助其他人保持节点时钟同步。但在某些极端情况下,我发现基于使用 NTP 服务器配置的同步时间,在某些情况下,您会发现节点之间存在 2-3 秒的漂移(在我的情况下,NTP 同步时间为 2 秒)。这可以通过减少节点间的同步时间来进一步减少。
但最终根本原因只是跨节点 运行 微服务的时钟漂移。
我有一个 3 节点 Cassandra 集群,复制因子为 2,读写一致性设置为 QUORUM
。我们正在使用 Spring 数据 Cassandra。
所有基础设施都使用 Kubernetes 部署。
现在在正常使用情况下,许多记录被插入到 Cassandra table。然后我们尝试使用 repo 的保存方法 modify/update 其中一条记录,如下所示:
ChunkMeta tmpRec = chunkMetaRepository.
save
(chunkMeta);
执行上述语句后,我们没有看到任何异常或错误。但是此更新仍然间歇性地失败。那就是当我们检查数据库中的记录时,有时它会成功更新,而其他时候它会失败。同样在上面的查询中,当我们打印 tmpRec
时,它包含更新后的正确值。仍然在数据库中,这些更新的值没有得到反映。
我们检查了所有节点上的 Cassandra 传输 TRACE 日志,发现我们的查询正在那里记录并正在执行。
现在另一个奇怪的观察是,如果我使用单个 Cassandra 节点(在 Kubernetes 中),或者如果我们使用 Ansible 在基础设施之上部署(Ansible 甚至适用于 3 个节点)。
看起来有些问题专门针对 Cassandra 的 Kubernetes 3 节点部署。主要看起来像是导致此问题的节点之间的复制。
Docker 文件的内容:
FROM ubuntu:16.04
RUN apt-get update && apt-get install -y python sudo lsof vim dnsutils net-tools && apt-get clean && \
addgroup testuser && useradd -g testuser testuser && usermod --password testuser testuser;
RUN mkdir -p /opt/test && \
mkdir -p /opt/test/data;
ADD jre8.tar.gz /opt/test/
ADD apache-cassandra-3.11.0-bin.tar.gz /opt/test/
RUN chmod 755 -R /opt/test/jre && \
ln -s /opt/test/jre/bin/java /usr/bin/java && \
mv /opt/test/apache-cassandra* /opt/test/cassandra;
RUN mkdir -p /opt/test/cassandra/logs;
ENV JAVA_HOME /opt/test/jre
RUN export JAVA_HOME
COPY version.txt /opt/test/cassandra/version.txt
WORKDIR /opt/test/cassandra/bin/
RUN mkdir -p /opt/test/data/saved_caches && \
mkdir -p /opt/test/data/commitlog && \
mkdir -p /opt/test/data/hints && \
chown -R testuser:testuser /opt/test/data && \
chown -R testuser:testuser /opt/test;
USER testuser
CMD cp /etc/cassandra/cassandra.yml ../conf/conf.yml && perl -p -e 's/$\{([^}]+)\}/defined $ENV{} ? $ENV{} : $&/eg; s/$\{([^}]+)\}//eg' ../conf/conf.yml > ../conf/cassandra.yaml && rm ../conf/conf.yml && ./cassandra -f
请注意 conf.yml 基本上是 cassandra.yml 具有与 Cassandra 相关的属性的文件。
谢谢你们,很抱歉延迟回复。
我找到了此行为的根本原因。实际上很久以后我发现 Cassandra 依赖于客户端时间戳(用于列时间戳)。客户端是指不同的 pod(微服务实例)。 在我的例子中,不同主机上有 3 个容器 运行。最后,经过大量的努力和研究,我发现不同主机上的这些容器 运行 之间存在轻微的时钟漂移。后来我在所有这些主机上安装了 NTP 服务器,这有助于我们在这些节点之间保持时间同步。与 NTP 类似,您还可以安装任何时间 syn server/utility 并摆脱节点时钟漂移问题。
虽然这对我有帮助,也将帮助其他人保持节点时钟同步。但在某些极端情况下,我发现基于使用 NTP 服务器配置的同步时间,在某些情况下,您会发现节点之间存在 2-3 秒的漂移(在我的情况下,NTP 同步时间为 2 秒)。这可以通过减少节点间的同步时间来进一步减少。
但最终根本原因只是跨节点 运行 微服务的时钟漂移。