Cassandra 和 SQL 服务器复制

Cassandra and SQL Server replication

我正在寻找一种方法来复制表，可能是整个数据库从 Microsoft SQL 服务器到 Cassandra (Datastax)。我不需要实时，但可能有 30 秒左右的延迟。到目前为止，研究并没有给我很多好的选择。我正在考虑使用 Talend/Pentaho 来安排作业，也可能是 sqoop，但我仍然需要一个 ETL 工具来进行一些转换，然后再加载到 Cassandra 中。

所以我想从 SQL 服务器中提取数据，对数据执行一些 spark 转换，然后加载到 Cassandra 中。

到目前为止，我只看到实时复制涉及 flume 插件，但涉及到 hdfs。卡桑德拉

如果您想让事情变得简单，您可以使用 DSE 完成所有工作。可以在cassandra中用crontab镜像数据调度sqoop作业，sqoop支持增量导入。然后你可以安排一些 spark 作业来执行 etl 并将修改后的数据保存在最终的 cassandra table 中。如果您的数据很大，您应该使用 spark 大规模执行 ETL，不要为此使用 pentaho。恕我直言

我最终使用 Talend Openstudio（免费）构建了所有表，因为使用它们的复制模式功能可以很容易地在 cassandra 中创建表。然后我安排了从 SQL 服务器提取数据的 Spark 作业，执行我们的 ETL，然后导入 DSE

Cassandra 和 SQL 服务器复制

Cassandra and SQL Server replication

pentaho

cassandra

talend

sqoop

datastax