如何在 Scala 中将 DataFrame 转换为 RDD?
How to convert DataFrame to RDD in Scala?
有人可以分享如何将 dataframe
转换为 RDD
吗?
简单:
val rows: RDD[Row] = df.rdd
如果要将行映射到不同的 RDD 元素,请使用 df.map(row => ...)
将数据帧转换为 RDD。例如
df.map(row => (row(1), row(2)))
给你一个成对的 RDD,其中 df 的第一列是键,df 的第二列是值。
我只是在寻找我的答案并找到了这个 post。
Jean 的回答绝对正确,加上 "df.rdd" 将 return 一个 RDD[Rows]。一旦我得到 RDD,我需要应用 split()。为此,我们需要将 RDD[Row} 转换为 RDD[String]
val opt=spark.sql("select tags from cvs").map(x=>x.toString()).rdd
有人可以分享如何将 dataframe
转换为 RDD
吗?
简单:
val rows: RDD[Row] = df.rdd
如果要将行映射到不同的 RDD 元素,请使用 df.map(row => ...)
将数据帧转换为 RDD。例如
df.map(row => (row(1), row(2)))
给你一个成对的 RDD,其中 df 的第一列是键,df 的第二列是值。
我只是在寻找我的答案并找到了这个 post。
Jean 的回答绝对正确,加上 "df.rdd" 将 return 一个 RDD[Rows]。一旦我得到 RDD,我需要应用 split()。为此,我们需要将 RDD[Row} 转换为 RDD[String]
val opt=spark.sql("select tags from cvs").map(x=>x.toString()).rdd