如何将数据集从 S3 导入到 cassandra？

How import dataset from S3 to cassandra?

i 在 aws 云中使用 datastax dse 启动集群 spark cassandra。所以我的数据集存储在 S3 中。但我不知道如何将数据从 S3 传输到我的集群 cassandra。请帮助我

详细信息取决于您的文件格式和 C* 数据模型，但它可能看起来像这样：

从s3读取文件到RDD

val rdd = sc.textFile("s3n://mybucket/path/filename.txt.gz")
操纵rdd
将rdd写入cassandratable:

rdd.saveToCassandra("test", "kv", SomeColumns("key", "value"))

@phact 描述的是通过使用 DataStax Enterprise 附带的 Spark API，如果在加载时需要完成 ETL 工作，这可能非常有用。对于仅加载，您可以使用 sstableloader 批量加载功能。这里有一个 tutorial 可以帮助您入门。