如何使用 saveTOCassandra()
How to use saveTOCassandra()
我是 spark 的新手 我想将我的 spark 数据保存到 cassandra,条件是我有一个 RDD,我想将这个 RDD 的数据保存到 cassandra 中的更多 table 中?这是可能如果是那么怎么办?
使用 Spark-Cassandra 连接器。
如何将数据保存到 cassandra:来自文档的示例:
val collection = sc.parallelize(Seq(("cat", 30), ("fox", 40)))
collection.saveToCassandra("test", "words", SomeColumns("word", "count"))
在此处查看项目和完整文档:https://github.com/datastax/spark-cassandra-connector
Python pyspark Cassandra saveToCassandra Spark
假设您的 table 如下:
CREATE TABLE ks.test (
id uuid,
sampleId text,
validated boolean,
cell text,
gene text,
state varchar,
data bigint, PRIMARY KEY (id, sampleId) );
如何在键空间 ks 的测试 table 中只更新给定 sampleId 的 'validated' 字段?您可以使用以下行更新 Python.
中的 table
from pyspark import SparkConf
import pyspark_cassandra
from pyspark_cassandra import CassandraSparkContext
conf = SparkConf().set("spark.cassandra.connection.host", <IP1>).set("spark.cassandra.connection.native.port",<IP2>)
sparkContext = CassandraSparkContext(conf = conf)
rdd = sparkContext.parallelize([{"validated":False, "sampleId":"323112121", "id":"121224235-11e5-9023-23789786ess" }])
rdd.saveToCassandra("ks", "test", {"validated", "sample_id", "id"} )
我是 spark 的新手 我想将我的 spark 数据保存到 cassandra,条件是我有一个 RDD,我想将这个 RDD 的数据保存到 cassandra 中的更多 table 中?这是可能如果是那么怎么办?
使用 Spark-Cassandra 连接器。
如何将数据保存到 cassandra:来自文档的示例:
val collection = sc.parallelize(Seq(("cat", 30), ("fox", 40)))
collection.saveToCassandra("test", "words", SomeColumns("word", "count"))
在此处查看项目和完整文档:https://github.com/datastax/spark-cassandra-connector
Python pyspark Cassandra saveToCassandra Spark
假设您的 table 如下:
CREATE TABLE ks.test (
id uuid,
sampleId text,
validated boolean,
cell text,
gene text,
state varchar,
data bigint, PRIMARY KEY (id, sampleId) );
如何在键空间 ks 的测试 table 中只更新给定 sampleId 的 'validated' 字段?您可以使用以下行更新 Python.
中的 tablefrom pyspark import SparkConf
import pyspark_cassandra
from pyspark_cassandra import CassandraSparkContext
conf = SparkConf().set("spark.cassandra.connection.host", <IP1>).set("spark.cassandra.connection.native.port",<IP2>)
sparkContext = CassandraSparkContext(conf = conf)
rdd = sparkContext.parallelize([{"validated":False, "sampleId":"323112121", "id":"121224235-11e5-9023-23789786ess" }])
rdd.saveToCassandra("ks", "test", {"validated", "sample_id", "id"} )