将数据集[Array[String]] 转换为数据集[MyCaseClass]
Converting Dataset[Array[String]] to Dataset[MyCaseClass]
我正在使用如下所示的 csv 文件
"age;""job"";""marital"""
"58;""management"";""married"""
"44;""technician"";""single"""
由于额外的引号,spark.read.csv 没有给出干净的列。
所以我想到了使用 spark.read.textFile 来提供 Dataset[String]。我使用下面的代码删除引号并将它们拆分。
case class MyCaseClass(age: String, job: String, marital: String)
val inputDS = spark.read.textFile(inpPath)
val cleanDS = inputDS.map(_.replaceAll(""""""", "").split(";"))
val seperatedDS = cleanDS.as[MyCaseClass] //fails
有没有办法实现这种数据集转换或拆分成多列的更好方法?
现在我正在使用 RDD 来完成工作,但想知道 Dataset/Dataframe 做这件事的方法。
你可以从每条分割线构造一条MyCaseClass
的记录,这样你就有了RDD[MyCaseClass]
,然后就可以直接转换成data frame了:
val cleanDS = inputDS.map(line => {
val fields = line.replaceAll("\"", "").split(";")
MyCaseClass(fields(0), fields(1), fields(2))
})
cleanDS
// res37: org.apache.spark.sql.Dataset[MyCaseClass] = [age: string, job: string ... 1 more field]
cleanDS.toDF.show
+---+----------+-------+
|age| job|marital|
+---+----------+-------+
|age| job|marital|
| 58|management|married|
| 44|technician| single|
+---+----------+-------+
我正在使用如下所示的 csv 文件
"age;""job"";""marital"""
"58;""management"";""married"""
"44;""technician"";""single"""
由于额外的引号,spark.read.csv 没有给出干净的列。 所以我想到了使用 spark.read.textFile 来提供 Dataset[String]。我使用下面的代码删除引号并将它们拆分。
case class MyCaseClass(age: String, job: String, marital: String)
val inputDS = spark.read.textFile(inpPath)
val cleanDS = inputDS.map(_.replaceAll(""""""", "").split(";"))
val seperatedDS = cleanDS.as[MyCaseClass] //fails
有没有办法实现这种数据集转换或拆分成多列的更好方法? 现在我正在使用 RDD 来完成工作,但想知道 Dataset/Dataframe 做这件事的方法。
你可以从每条分割线构造一条MyCaseClass
的记录,这样你就有了RDD[MyCaseClass]
,然后就可以直接转换成data frame了:
val cleanDS = inputDS.map(line => {
val fields = line.replaceAll("\"", "").split(";")
MyCaseClass(fields(0), fields(1), fields(2))
})
cleanDS
// res37: org.apache.spark.sql.Dataset[MyCaseClass] = [age: string, job: string ... 1 more field]
cleanDS.toDF.show
+---+----------+-------+
|age| job|marital|
+---+----------+-------+
|age| job|marital|
| 58|management|married|
| 44|technician| single|
+---+----------+-------+