Spark 数据集 - 强类型

Spark Datasets - strong typing

关于 Spark 数据集,什么是强类型 API 和无类型 API?

数据集如何 similar/dissimilar 到 DataFrame?

Dataframe API 是无类型的 API,因为只有在运行时才知道类型。而数据集 API 的类型为 API,其类型将在编译时已知。

df.select("device").where("signal > 10")      // using untyped APIs   
ds.filter(_.signal > 10).map(_.device)         // using typed APIs