Cassandra 和 SQL 服务器复制

Cassandra and SQL Server replication

我正在寻找一种方法来复制表,可能是整个数据库从 Microsoft SQL 服务器到 Cassandra (Datastax)。我不需要实时,但可能有 30 秒左右的延迟。到目前为止,研究并没有给我很多好的选择。我正在考虑使用 Talend/Pentaho 来安排作业,也可能是 sqoop,但我仍然需要一个 ETL 工具来进行一些转换,然后再加载到 Cassandra 中。

所以我想从 SQL 服务器中提取数据,对数据执行一些 spark 转换,然后加载到 Cassandra 中。

到目前为止,我只看到实时复制涉及 flume 插件,但涉及到 hdfs。卡桑德拉

如果您想让事情变得简单,您可以使用 DSE 完成所有工作。可以在cassandra中用crontab镜像数据调度sqoop作业,sqoop支持增量导入。然后你可以安排一些 spark 作业来执行 etl 并将修改后的数据保存在最终的 cassandra table 中。 如果您的数据很大,您应该使用 spark 大规模执行 ETL,不要为此使用 pentaho。恕我直言

我最终使用 Talend Openstudio(免费)构建了所有表,因为使用它们的复制模式功能可以很容易地在 cassandra 中创建表。然后我安排了从 SQL 服务器提取数据的 Spark 作业,执行我们的 ETL,然后导入 DSE