如何使用 Cassandra 键空间创建 spark 数据框?

How to create a spark dataframe with a Cassandra keyspace?

我在本地安装了 Cassandra。我必须使用 Google Colab 在 Spark 中工作,并且可以 运行 从我的本地数据库查询。但我知道可以更有效地连接 spark 和 cassandra。我想用来自 cassandra 键空间的数据创建一个数据框。你是怎么做到的?

我的键空间叫做 yelp_data。它包含 "reviews" 和 "business" 表。

在我的项目中,我想要一个数据框 df =(来自我的 Cassandra 键空间的数据)。 我用的是pyspark。

只需按照 documentation for Spark Cassandra Connector,并使用带有正确选项的 spark.read,如下所示:

reviews_df = spark.read.format("org.apache.spark.sql.cassandra")\
  .options(table="reviews", keyspace="yelp_data").load()
business_df = spark.read.format("org.apache.spark.sql.cassandra")\
  .options(table="business", keyspace="yelp_data").load()