如何将数据集从 S3 导入到 cassandra?
How import dataset from S3 to cassandra?
i 在 aws 云中使用 datastax dse 启动集群 spark cassandra。所以我的数据集存储在 S3 中。但我不知道如何将数据从 S3 传输到我的集群 cassandra。请帮助我
详细信息取决于您的文件格式和 C* 数据模型,但它可能看起来像这样:
从s3读取文件到RDD
val rdd = sc.textFile("s3n://mybucket/path/filename.txt.gz")
操纵rdd
将rdd写入cassandratable:
rdd.saveToCassandra("test", "kv", SomeColumns("key", "value"))
@phact 描述的是通过使用 DataStax Enterprise 附带的 Spark API,如果在加载时需要完成 ETL 工作,这可能非常有用。
对于仅加载,您可以使用 sstableloader
批量加载功能。这里有一个 tutorial 可以帮助您入门。
i 在 aws 云中使用 datastax dse 启动集群 spark cassandra。所以我的数据集存储在 S3 中。但我不知道如何将数据从 S3 传输到我的集群 cassandra。请帮助我
详细信息取决于您的文件格式和 C* 数据模型,但它可能看起来像这样:
从s3读取文件到RDD
val rdd = sc.textFile("s3n://mybucket/path/filename.txt.gz")
操纵rdd
将rdd写入cassandratable:
rdd.saveToCassandra("test", "kv", SomeColumns("key", "value"))
@phact 描述的是通过使用 DataStax Enterprise 附带的 Spark API,如果在加载时需要完成 ETL 工作,这可能非常有用。
对于仅加载,您可以使用 sstableloader
批量加载功能。这里有一个 tutorial 可以帮助您入门。