从 Hive 表读取并写入 Cassandra 表

Read from Hive tables and Write to Cassandra tables

我在 Cloudera 集群的 Hive 中有一些外部表按 daily_date 列分区。

我还有 DataStax Enterprise Cassandra 集群,我在其中创建了与 Hive 表结构相同的表。

问题:我想export/write将Hive表中的表数据到对应的Cassandra表中。

是否有 Hive 到 Cassandra 的连接器可用?或者我是否需要在 Spark 中执行此操作,如果是的话如何?这里最好的 practice/solution 是什么?

我已经尝试 google 很多不同的关键字,但还没有找到任何 correct/recommended 解决方案。

请指导。

只需将 Spark 与 Spark Cassandra Connector, better with Dataframe APIs. Access data in Hive as described in Spark docs 一起使用,获取数据帧后,将其写入 Cassandra。像这样:

// assuming that table is registered already:
val df = sql("SELECT * from hive_table")
df.write
  .format("org.apache.spark.sql.cassandra")
  .options(Map("table" -> "...", "keyspace" -> "..."))
  .save()