Cassandra table 同步

Question

我刚刚阅读了 DataStax post“Basic Rules of Cassandra Data Modeling”，总而言之，我们应该通过查询而不是 relations/objects 对数据库模式进行建模。因此，许多表可以具有相同的重复数据，例如 users_by_email 和 users_by_username 都具有相同的数据。

如何处理对象更新？
例如，用户编辑他的电子邮件，我是手动 UPDATE 两个表还是只 INSERT 具有所有列的对象并且不关心以前的数据（它们仍在我的数据库中，但错误列值 => 电子邮件）。

如果是UPDATE，我该如何处理数据同步？
目前，我正在手动执行此操作，但有没有工具可以帮助我？因为，可能，我可以有 5 或 6 个具有不同 partition/clustering 键的表。
听说Hadoop可以，或者Apache Spark。

Answer 1

在 Cassadnra 中，给定现有记录，使用相同主键进行更新或插入将导致旧记录标记为删除（带有逻辑删除），新记录变为 "live"。 Insert 和 Update 之间的区别很少，例如计数器和空值，但这些可能与问题无关。

在 Cassandra 3.0 之前，同步维护同一数据的多个视图的责任在客户端应用程序手中。是的，这意味着 insert/update 需要它的所有不同 table 中的新数据。

Cassandra 3.0 引入了 "Materialized Views"，它让您可以维护 "master" table 数据及其多个视图，全部由 Cassandra 管理。它需要仔细的数据建模，以便 'master' table 的主键包含创建不同视图和所需相关查询所需的实体。

附加说明：如果您发现您的数据高度相关并且需要 several/many 视图才能使其可查询，那么 Cassandra 可能不适合解决该问题 space 并且可能您应该考虑使用 RDBMS。

为了扩展所提供的示例，我们可能希望将用户信息保存在关系数据库中，而这些用户的大量操作可以在 Cassandra 中注册。（购买、点击、心率样本……）

Answer 2

我在我的系统中所做的是为每个用户设置一个唯一标识符。

我使用一个 table 的电子邮件/标识符（以及一些其他数据）。当用户登录或使用系统时，我使用他的电子邮件来查找标识符，然后其他一切都使用该标识符。

用户现在可以更改他的电子邮件地址，标识符保持不变，因此所有其他 table 不需要针对此类更改进行更新。

关于旧的电子邮件地址，我还没有全部完成，但我计划让当前的电子邮件参考旧的（"link"，如果你愿意的话）并在一定时间，也许是 12 个月，旧电子邮件将被删除。在这 12 个月里，该帐户被阻止（没有其他人可以重新使用该帐户。）出于各种安全原因，这是一个好主意。

P.S。对于唯一标识符，人们使用不同的解决方案，例如Zookeeper，我个人喜欢使用Cassandra with the Lamport's bakery algorithm。

Answer 3

为了确保包含相同数据但布局不同的许多表的数据一致性，建议您使用 CQL 中的 LOGGED BATCH 来执行更新。这样你的 BATCH 中的 CQL 语句（更新数据）是 ACID，你不必担心一些失败和重试。

使用链接文章的架构看起来像：

BEGIN BATCH
  INSERT INTO users_by_email (email, username, age) VALUES ('fromanator@email.com', 'fromanator', 24);
  INSERT INTO users_by_username (email, username, age) VALUES ('fromanator@email.com', 'fromanator', 24);
APPLY BATCH;

这整个语句是原子的，如果一个插入失败，它们都失败并且没有进行任何更改。

Cassandra table 同步

Cassandra table synchronization

cassandra

nosql

datastax