将 CSV 文件导入为 PySpark 数据集(不是数据帧)
Import CSV file as PySpark Dataset (NOT Dataframes)
如何将 CSV 文件作为 数据集 导入 PySpark?请注意,我不是在询问如何将它们导入 dataframes.
在阅读 Databricks 的这一页时,我了解了数据集相对于数据帧的一些好处。
我想学习如何使用它们而不是 RDD 和数据帧。
linked 博客 post 给出了不可能的答案,因为 python:
Note: Since Python and R have no compile-time type-safety, we only have untyped APIs, namely DataFrames.
如何将 CSV 文件作为 数据集 导入 PySpark?请注意,我不是在询问如何将它们导入 dataframes.
在阅读 Databricks 的这一页时,我了解了数据集相对于数据帧的一些好处。
我想学习如何使用它们而不是 RDD 和数据帧。
linked 博客 post 给出了不可能的答案,因为 python:
Note: Since Python and R have no compile-time type-safety, we only have untyped APIs, namely DataFrames.