Spark 2.x 数据帧还是数据集?

Spark 2.x DataFrames or Datasets?

我的理解是 Spark 1.x 和 2.x 之间的 变化之一是迁移 awayDataFrame 到采用 newer/improved Dataset 个对象。

但是在所有 Spark 2.x docs 中,我看到 DataFrames 被使用,而不是 Datasets

所以我问:在 Spark 2.x 中,我们是否仍在使用 DataFrames,或者只是没有更新 Spark 人员 2.x 文档以使用更新的 + 推荐的 Datasets?

DataFramesDataset,只是Dataset的一种特殊类型,即Dataset[Row],意思是无类型Datasets

但确实,即使使用 Spark 2.x,许多 Spark 用户仍然使用 DataFrames,尤其是用于快速原型制作(我就是其中之一),因为它非常方便 API 并且许多操作(在我看来)使用 DataFrames 比使用 Datasets

更容易

显然你可以同时使用两者,但 Spark 没有人愿意更新文档来展示如何使用 Datasets 所以我猜他们真的希望我们像我们一样使用 DataFrames在 1.x.

做过