Spark:Split 不是 org.apache.spark.sql.Row 的成员
Spark: Split is not a member of org.apache.spark.sql.Row
下面是我在 Spark 1.6 中的代码。我正在尝试将其转换为 Spark 2.3,但使用拆分时出现错误。
Spark 1.6 代码:
val file = spark.textFile(args(0))
val mapping = file.map(_.split('/t')).map(a => a(1))
mapping.saveAsTextFile(args(1))
Spark 2.3 代码:
val file = spark.read.text(args(0))
val mapping = file.map(_.split('/t')).map(a => a(1)) //Getting Error Here
mapping.write.text(args(1))
错误信息:
value split is not a member of org.apache.spark.sql.Row
不同于 spark.textFile
其中 returns 一个 RDD
,
spark.read.text returns 一个 DataFrame
本质上是一个 RDD[Row]
。您可以使用部分函数执行 map
,如下例所示:
// /path/to/textfile:
// a b c
// d e f
import org.apache.spark.sql.Row
val df = spark.read.text("/path/to/textfile")
df.map{ case Row(s: String) => s.split("\t") }.map(_(1)).show
// +-----+
// |value|
// +-----+
// | b|
// | e|
// +-----+
下面是我在 Spark 1.6 中的代码。我正在尝试将其转换为 Spark 2.3,但使用拆分时出现错误。
Spark 1.6 代码:
val file = spark.textFile(args(0))
val mapping = file.map(_.split('/t')).map(a => a(1))
mapping.saveAsTextFile(args(1))
Spark 2.3 代码:
val file = spark.read.text(args(0))
val mapping = file.map(_.split('/t')).map(a => a(1)) //Getting Error Here
mapping.write.text(args(1))
错误信息:
value split is not a member of org.apache.spark.sql.Row
不同于 spark.textFile
其中 returns 一个 RDD
,
spark.read.text returns 一个 DataFrame
本质上是一个 RDD[Row]
。您可以使用部分函数执行 map
,如下例所示:
// /path/to/textfile:
// a b c
// d e f
import org.apache.spark.sql.Row
val df = spark.read.text("/path/to/textfile")
df.map{ case Row(s: String) => s.split("\t") }.map(_(1)).show
// +-----+
// |value|
// +-----+
// | b|
// | e|
// +-----+