如何将数据集从 S3 导入到 cassandra?

How import dataset from S3 to cassandra?

i 在 aws 云中使用 datastax dse 启动集群 spark cassandra。所以我的数据集存储在 S3 中。但我不知道如何将数据从 S3 传输到我的集群 cassandra。请帮助我

详细信息取决于您的文件格式和 C* 数据模型,但它可能看起来像这样:

  • 从s3读取文件到RDD

    val rdd = sc.textFile("s3n://mybucket/path/filename.txt.gz")

  • 操纵rdd

  • 将rdd写入cassandratable:

    rdd.saveToCassandra("test", "kv", SomeColumns("key", "value"))

@phact 描述的是通过使用 DataStax Enterprise 附带的 Spark API,如果在加载时需要完成 ETL 工作,这可能非常有用。 对于仅加载,您可以使用 sstableloader 批量加载功能。这里有一个 tutorial 可以帮助您入门。