如何使用 Spark Cassandra 连接器创建 table?
How do I create a table using the Spark Cassandra Connector?
我最近开始使用 Spark Cassandra Connector,我已经手动创建了我的 table 并且能够保存数据。这是文档中的一个简化片段:
CREATE TABLE test.words (word text PRIMARY KEY, count int);
val collection = sc.parallelize(Seq(("cat", 30), ("fox", 40)))
collection.saveToCassandra("test", "words", SomeColumns("word", "count"))
有没有一种方法可以通过从案例 类 中推断架构来以编程方式创建 table,而无需实际编写原始查询?
是的,您可以将 saveAsCassandraTable
和 saveAsCassandraTableEx
用作 described in documentation。第一个函数将根据您的数据自动创建 table(注意它会将一列作为分区键)。第二个函数将允许您通过指定分区键、集群列等来自定义架构,如下所示(代码来自文档):
val p1Col = new ColumnDef("col1",PartitionKeyColumn,UUIDType)
val c1Col = new ColumnDef("col2",ClusteringColumn(0),UUIDType)
val c2Col = new ColumnDef("col3",ClusteringColumn(1),DoubleType)
val rCol = new ColumnDef("col4",RegularColumn,IntType)
// Create table definition
val table = TableDef("test","words",Seq(p1Col),Seq(c1Col, c2Col),Seq(rCol))
// Map rdd into custom data structure and create table
val rddOut = rdd.map(s => outData(s._1, s._2(0), s._2(1), s._3))
rddOut.saveAsCassandraTableEx(table, SomeColumns("col1", "col2", "col3", "col4"))
我最近开始使用 Spark Cassandra Connector,我已经手动创建了我的 table 并且能够保存数据。这是文档中的一个简化片段:
CREATE TABLE test.words (word text PRIMARY KEY, count int);
val collection = sc.parallelize(Seq(("cat", 30), ("fox", 40)))
collection.saveToCassandra("test", "words", SomeColumns("word", "count"))
有没有一种方法可以通过从案例 类 中推断架构来以编程方式创建 table,而无需实际编写原始查询?
是的,您可以将 saveAsCassandraTable
和 saveAsCassandraTableEx
用作 described in documentation。第一个函数将根据您的数据自动创建 table(注意它会将一列作为分区键)。第二个函数将允许您通过指定分区键、集群列等来自定义架构,如下所示(代码来自文档):
val p1Col = new ColumnDef("col1",PartitionKeyColumn,UUIDType)
val c1Col = new ColumnDef("col2",ClusteringColumn(0),UUIDType)
val c2Col = new ColumnDef("col3",ClusteringColumn(1),DoubleType)
val rCol = new ColumnDef("col4",RegularColumn,IntType)
// Create table definition
val table = TableDef("test","words",Seq(p1Col),Seq(c1Col, c2Col),Seq(rCol))
// Map rdd into custom data structure and create table
val rddOut = rdd.map(s => outData(s._1, s._2(0), s._2(1), s._3))
rddOut.saveAsCassandraTableEx(table, SomeColumns("col1", "col2", "col3", "col4"))