Spark 数据集和 java.sql.Date
Spark Dataset and java.sql.Date
假设我有一个像这样的 Spark Dataset
:
scala> import java.sql.Date
scala> case class Event(id: Int, date: Date, name: String)
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS
我想创建一个只有名称和日期字段的新 Dataset
。据我所知,我可以将 ds.select()
与 TypedColumn
一起使用,也可以将 ds.select()
与 Column
一起使用,然后将 DataFrame
转换为 Dataset
.
但是,我无法让前一个选项与 Date
类型一起使用。例如:
scala> ds.select($"name".as[String], $"date".as[Date])
<console>:31: error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
ds.select($"name".as[String], $"date".as[Date])
^
后面的选项有效:
scala> ds.select($"name", $"date").as[(String, Date)]
res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date]
有没有办法从 Dataset
到 select Date
字段而不去 DataFrame
并返回?
一整天都在为这些问题苦苦思索。我想你可以用一行来解决你的问题:
implicit val e: Encoder[(String, Date)] = org.apache.spark.sql.Encoders.kryo[(String,Date)]
至少这对我有用。
编辑
在这些情况下,问题是对于大多数 Dataset
操作,Spark 2 需要一个 Encoder
来存储模式信息(大概是为了优化)。模式信息采用隐式参数的形式(并且一堆 Dataset
操作具有这种隐式参数)。
在这种情况下,OP 找到了 java.sql.Date
的正确架构,因此以下工作:
implicit val e = org.apache.spark.sql.Encoders.DATE
假设我有一个像这样的 Spark Dataset
:
scala> import java.sql.Date
scala> case class Event(id: Int, date: Date, name: String)
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS
我想创建一个只有名称和日期字段的新 Dataset
。据我所知,我可以将 ds.select()
与 TypedColumn
一起使用,也可以将 ds.select()
与 Column
一起使用,然后将 DataFrame
转换为 Dataset
.
但是,我无法让前一个选项与 Date
类型一起使用。例如:
scala> ds.select($"name".as[String], $"date".as[Date])
<console>:31: error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
ds.select($"name".as[String], $"date".as[Date])
^
后面的选项有效:
scala> ds.select($"name", $"date").as[(String, Date)]
res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date]
有没有办法从 Dataset
到 select Date
字段而不去 DataFrame
并返回?
一整天都在为这些问题苦苦思索。我想你可以用一行来解决你的问题:
implicit val e: Encoder[(String, Date)] = org.apache.spark.sql.Encoders.kryo[(String,Date)]
至少这对我有用。
编辑
在这些情况下,问题是对于大多数 Dataset
操作,Spark 2 需要一个 Encoder
来存储模式信息(大概是为了优化)。模式信息采用隐式参数的形式(并且一堆 Dataset
操作具有这种隐式参数)。
在这种情况下,OP 找到了 java.sql.Date
的正确架构,因此以下工作:
implicit val e = org.apache.spark.sql.Encoders.DATE