将 ADT / sealed trait hierarchy 编码到 Spark DataSet 列中

Encode an ADT / sealed trait hierarchy into Spark DataSet column

如果我想在 Spark DataSet 列中存储代数数据类型 (ADT)(即 Scala 密封特征层次结构),最佳编码策略是什么?

例如,如果我有一个 ADT,其中叶类型存储不同类型的数据:

sealed trait Occupation
case object SoftwareEngineer extends Occupation
case class Wizard(level: Int) extends Occupation
case class Other(description: String) extends Occupation

构建 a 的最佳方法是什么:

org.apache.spark.sql.DataSet[Occupation]

TL;DR 目前没有好的解决方案,考虑到 Spark SQL / Dataset 实现,不太可能有可预见的未来。

您可以使用通用 kryojava 编码器

val occupation: Seq[Occupation] = Seq(SoftwareEngineer, Wizard(1), Other("foo"))
spark.createDataset(occupation)(org.apache.spark.sql.Encoders.kryo[Occupation])

但在实践中几乎没有用。

UDT API 提供了另一种可能的方法(Spark 1.62.02.1-SNAPSHOT)它是私有的并且需要相当多的样板代码(你可以检查 o.a.s.ml.linalg.VectorUDT 以查看示例实现)。

我曾经深入研究过这个主题并创建了一个 repo,展示了我发现的所有可能有用的方法。

Link: https://github.com/atais/spark-enum

一般来说, 是正确的,但您可能会发现它对理解全貌很有用。