"API" 在 Spark 的 "Dataframe API" 中是什么意思?

What does "API" mean in Spark's "Dataframe API"?

Spark 的 Dataframe API 中的 "API" 是什么意思? 它与 API 有什么关系?

虽然术语A应用程序P编程I接口主要用于元素暴露一个网络服务器的服务,它有更一般的含义。

对于扩展为 Spark 的框架,它列出了与库交互的特定方式 供用户使用。

Spark 具有不同的 APIs 和不同的用途,它们作为前端接口屏蔽更复杂的底层或结构代码(Facade Pattern): 即使每个 spark 作业 运行 RDD-based 管道,Spark 提供不同的方法来构建 工作:

  • Core API (Spark Core): 用户直接操作RDDs,是底层API
  • 数据集API (Spark SQL):用户操作高级类型对象
  • DataFrame API (Spark SQL): 用户操作高级无类型对象
  • SQL API (Spark SQL): 用户写入 SQL 查询字符串

(3 最后 API 利用描述性编程模型和操纵数据的结构来生成优化的 Spark 作业)

注意:按照惯例,在谈论数据集 API 时,我们谈论的是 Dataset[T] 对象的操作,其 T 不同于 RowDataset[Row] 对象的操作称为 DataFrame API(因为 DataFrameDataset[Row] 的类型别名)。