如何使用 saveTOCassandra()

Question

我是 spark 的新手我想将我的 spark 数据保存到 cassandra，条件是我有一个 RDD，我想将这个 RDD 的数据保存到 cassandra 中的更多 table 中？这是可能如果是那么怎么办？

Answer 1

使用 Spark-Cassandra 连接器。

如何将数据保存到 cassandra：来自文档的示例：

val collection = sc.parallelize(Seq(("cat", 30), ("fox", 40)))
collection.saveToCassandra("test", "words", SomeColumns("word", "count"))

在此处查看项目和完整文档：https://github.com/datastax/spark-cassandra-connector

Answer 2

Python pyspark Cassandra saveToCassandra Spark

假设您的 table 如下：

CREATE TABLE ks.test (
  id uuid,
  sampleId text,
  validated boolean,
  cell text,
  gene text,
  state varchar,
  data bigint, PRIMARY KEY (id, sampleId) );

如何在键空间 ks 的测试 table 中只更新给定 sampleId 的 'validated' 字段？您可以使用以下行更新 Python.

中的 table

from pyspark import SparkConf

import pyspark_cassandra

from pyspark_cassandra import CassandraSparkContext

conf = SparkConf().set("spark.cassandra.connection.host", <IP1>).set("spark.cassandra.connection.native.port",<IP2>)

sparkContext = CassandraSparkContext(conf = conf)

rdd = sparkContext.parallelize([{"validated":False, "sampleId":"323112121", "id":"121224235-11e5-9023-23789786ess" }])

rdd.saveToCassandra("ks", "test", {"validated", "sample_id", "id"} )

如何使用 saveTOCassandra()

How to use saveTOCassandra()

cassandra

apache-spark

spark-streaming

rdd