Spark 2.x 数据帧还是数据集?
Spark 2.x DataFrames or Datasets?
我的理解是 Spark 1.x 和 2.x 之间的 大 变化之一是迁移 away从 DataFrame
到采用 newer/improved Dataset
个对象。
但是在所有 Spark 2.x docs 中,我看到 DataFrames
被使用,而不是 Datasets
。
所以我问:在 Spark 2.x 中,我们是否仍在使用 DataFrames
,或者只是没有更新 Spark 人员 2.x 文档以使用更新的 + 推荐的 Datasets
?
DataFrames
是Dataset
,只是Dataset
的一种特殊类型,即Dataset[Row]
,意思是无类型Datasets
。
但确实,即使使用 Spark 2.x,许多 Spark 用户仍然使用 DataFrame
s,尤其是用于快速原型制作(我就是其中之一),因为它非常方便 API 并且许多操作(在我看来)使用 DataFrame
s 比使用 Dataset
s
更容易
显然你可以同时使用两者,但 Spark 没有人愿意更新文档来展示如何使用 Datasets
所以我猜他们真的希望我们像我们一样使用 DataFrames
在 1.x.
做过
我的理解是 Spark 1.x 和 2.x 之间的 大 变化之一是迁移 away从 DataFrame
到采用 newer/improved Dataset
个对象。
但是在所有 Spark 2.x docs 中,我看到 DataFrames
被使用,而不是 Datasets
。
所以我问:在 Spark 2.x 中,我们是否仍在使用 DataFrames
,或者只是没有更新 Spark 人员 2.x 文档以使用更新的 + 推荐的 Datasets
?
DataFrames
是Dataset
,只是Dataset
的一种特殊类型,即Dataset[Row]
,意思是无类型Datasets
。
但确实,即使使用 Spark 2.x,许多 Spark 用户仍然使用 DataFrame
s,尤其是用于快速原型制作(我就是其中之一),因为它非常方便 API 并且许多操作(在我看来)使用 DataFrame
s 比使用 Dataset
s
显然你可以同时使用两者,但 Spark 没有人愿意更新文档来展示如何使用 Datasets
所以我猜他们真的希望我们像我们一样使用 DataFrames
在 1.x.