Cassandra 和 SQL 服务器复制
Cassandra and SQL Server replication
我正在寻找一种方法来复制表,可能是整个数据库从 Microsoft SQL 服务器到 Cassandra (Datastax)。我不需要实时,但可能有 30 秒左右的延迟。到目前为止,研究并没有给我很多好的选择。我正在考虑使用 Talend/Pentaho 来安排作业,也可能是 sqoop,但我仍然需要一个 ETL 工具来进行一些转换,然后再加载到 Cassandra 中。
所以我想从 SQL 服务器中提取数据,对数据执行一些 spark 转换,然后加载到 Cassandra 中。
到目前为止,我只看到实时复制涉及 flume 插件,但涉及到 hdfs。卡桑德拉
如果您想让事情变得简单,您可以使用 DSE 完成所有工作。可以在cassandra中用crontab镜像数据调度sqoop作业,sqoop支持增量导入。然后你可以安排一些 spark 作业来执行 etl 并将修改后的数据保存在最终的 cassandra table 中。
如果您的数据很大,您应该使用 spark 大规模执行 ETL,不要为此使用 pentaho。恕我直言
我最终使用 Talend Openstudio(免费)构建了所有表,因为使用它们的复制模式功能可以很容易地在 cassandra 中创建表。然后我安排了从 SQL 服务器提取数据的 Spark 作业,执行我们的 ETL,然后导入 DSE
我正在寻找一种方法来复制表,可能是整个数据库从 Microsoft SQL 服务器到 Cassandra (Datastax)。我不需要实时,但可能有 30 秒左右的延迟。到目前为止,研究并没有给我很多好的选择。我正在考虑使用 Talend/Pentaho 来安排作业,也可能是 sqoop,但我仍然需要一个 ETL 工具来进行一些转换,然后再加载到 Cassandra 中。
所以我想从 SQL 服务器中提取数据,对数据执行一些 spark 转换,然后加载到 Cassandra 中。
到目前为止,我只看到实时复制涉及 flume 插件,但涉及到 hdfs。卡桑德拉
如果您想让事情变得简单,您可以使用 DSE 完成所有工作。可以在cassandra中用crontab镜像数据调度sqoop作业,sqoop支持增量导入。然后你可以安排一些 spark 作业来执行 etl 并将修改后的数据保存在最终的 cassandra table 中。 如果您的数据很大,您应该使用 spark 大规模执行 ETL,不要为此使用 pentaho。恕我直言
我最终使用 Talend Openstudio(免费)构建了所有表,因为使用它们的复制模式功能可以很容易地在 cassandra 中创建表。然后我安排了从 SQL 服务器提取数据的 Spark 作业,执行我们的 ETL,然后导入 DSE