将 CSV 文件导入为 PySpark 数据集(不是数据帧)

Import CSV file as PySpark Dataset (NOT Dataframes)

如何将 CSV 文件作为 数据集 导入 PySpark?请注意,我不是在询问如何将它们导入 dataframes.

在阅读 Databricks 的这一页时,我了解了数据集相对于数据帧的一些好处。

https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html

我想学习如何使用它们而不是 RDD 和数据帧。

linked 博客 post 给出了不可能的答案,因为 python:

Note: Since Python and R have no compile-time type-safety, we only have untyped APIs, namely DataFrames.