如何在 Scala 中将 DataFrame 转换为 RDD?

How to convert DataFrame to RDD in Scala?

有人可以分享如何将 dataframe 转换为 RDD 吗?

简单:

val rows: RDD[Row] = df.rdd

如果要将行映射到不同的 RDD 元素,请使用 df.map(row => ...) 将数据帧转换为 RDD。例如

df.map(row => (row(1), row(2)))

给你一个成对的 RDD,其中 df 的第一列是键,df 的第二列是值。

我只是在寻找我的答案并找到了这个 post。

Jean 的回答绝对正确,加上 "df.rdd" 将 return 一个 RDD[Rows]。一旦我得到 RDD,我需要应用 split()。为此,我们需要将 RDD[Row} 转换为 RDD[String]

val opt=spark.sql("select tags from cvs").map(x=>x.toString()).rdd