"API" 在 Spark 的 "Dataframe API" 中是什么意思?
What does "API" mean in Spark's "Dataframe API"?
Spark 的 Dataframe API 中的 "API" 是什么意思?
它与 API 有什么关系?
虽然术语A应用程序P编程I接口主要用于元素暴露一个网络服务器的服务,它有更一般的含义。
对于扩展为 Spark 的框架,它列出了与库交互的特定方式 供用户使用。
Spark 具有不同的 APIs 和不同的用途,它们作为前端接口屏蔽更复杂的底层或结构代码(Facade Pattern):
即使每个 spark 作业 运行 RDD-based 管道,Spark 提供不同的方法来构建 工作:
- Core API (Spark Core): 用户直接操作RDDs,是底层API
- 数据集API (Spark SQL):用户操作高级类型对象
- DataFrame API (Spark SQL): 用户操作高级无类型对象
- SQL API (Spark SQL): 用户写入 SQL 查询字符串
(3 最后 API 利用描述性编程模型和操纵数据的结构来生成优化的 Spark 作业)
注意:按照惯例,在谈论数据集 API 时,我们谈论的是 Dataset[T]
对象的操作,其 T 不同于 Row
。 Dataset[Row]
对象的操作称为 DataFrame API(因为 DataFrame
是 Dataset[Row]
的类型别名)。
Spark 的 Dataframe API 中的 "API" 是什么意思? 它与 API 有什么关系?
虽然术语A应用程序P编程I接口主要用于元素暴露一个网络服务器的服务,它有更一般的含义。
对于扩展为 Spark 的框架,它列出了与库交互的特定方式 供用户使用。
Spark 具有不同的 APIs 和不同的用途,它们作为前端接口屏蔽更复杂的底层或结构代码(Facade Pattern): 即使每个 spark 作业 运行 RDD-based 管道,Spark 提供不同的方法来构建 工作:
- Core API (Spark Core): 用户直接操作RDDs,是底层API
- 数据集API (Spark SQL):用户操作高级类型对象
- DataFrame API (Spark SQL): 用户操作高级无类型对象
- SQL API (Spark SQL): 用户写入 SQL 查询字符串
(3 最后 API 利用描述性编程模型和操纵数据的结构来生成优化的 Spark 作业)
注意:按照惯例,在谈论数据集 API 时,我们谈论的是 Dataset[T]
对象的操作,其 T 不同于 Row
。 Dataset[Row]
对象的操作称为 DataFrame API(因为 DataFrame
是 Dataset[Row]
的类型别名)。