火花 createOrReplaceTempView 与 createGlobalTempView

spark createOrReplaceTempView vs createGlobalTempView

Spark Dataset 2.0 提供了两个函数createOrReplaceTempViewcreateGlobalTempView。我无法理解这两个函数之间的基本区别。

根据API documents

createOrReplaceTempView: 这个的生命周期 临时视图绑定到用于创建此数据集的 [[SparkSession]]。
所以,当我调用 sparkSession.close() 时,定义的将被销毁。是真的吗?

createGlobalTempView:此临时视图的生命周期与此 Spark 应用程序相关联。

这种景观什么时候销毁?任何例子。像 sparkSession.close()?

df.createOrReplaceTempView("tempViewName")
df.createGlobalTempView("tempViewName")

createOrReplaceTempView() 使用此数据框 df 创建或替换本地临时视图。此视图的生命周期取决于 SparkSession class,是否要删除此视图:

spark.catalog.dropTempView("tempViewName")

stop()将关闭会话

self.ss = SparkSession(sc)
...
self.ss.stop()

createGlobalTempView() 使用此数据框 df 创建一个全局临时视图。此视图的生命周期取决于 Spark 应用程序本身。 如果你想放弃 :

spark.catalog.dropGlobalTempView("tempViewName")

stop()将关闭

ss =  SparkContext(conf=conf, ......)
...
ss.stop()

您的问题的答案基本上是了解 Spark 应用程序和 Spark 会话的区别。

可以使用Spark应用:

  • 对于单个批处理作业
  • 一个包含多个作业的交互式会话
  • 一个long-lived服务器持续满足请求
  • 一个 Spark 作业可以不仅仅包含一个 map 和 reduce。
  • 一个 Spark 应用程序可以包含多个会话

另一方面,SparkSession 关联到 Spark 应用程序:

  • 通常,会话是两个或多个实体之间的交互。
  • 在 Spark 2.0 中你可以使用 SparkSession
  • 可以在不创建 SparkConf、SparkContext 或 SQLContext 的情况下创建 SparkSession(它们被封装在 SparkSession 中)

Spark 2.1.0 版本中引入了全局临时视图。当您想要在不同会话之间共享数据并保持活动状态直到您的应用程序 ends.Please 看到我为说明 createTempViewcreateGlobalTempView[=13= 的使用而编写的示例时,此功能很有用]

object NewSessionApp {

  def main(args: Array[String]): Unit = {

    val logFile = "data/README.md" // Should be some file on your system
    val spark = SparkSession.
      builder.
      appName("Simple Application").
      master("local").
      getOrCreate()

    val logData = spark.read.textFile(logFile).cache()
    logData.createGlobalTempView("logdata")
    spark.range(1).createTempView("foo")

    // within the same session the foo table exists 
    println("""spark.catalog.tableExists("foo") = """ + spark.catalog.tableExists("foo"))
    //spark.catalog.tableExists("foo") = true

    // for a new session the foo table does not exists
    val newSpark = spark.newSession
    println("""newSpark.catalog.tableExists("foo") = """ + newSpark.catalog.tableExists("foo"))
    //newSpark.catalog.tableExists("foo") = false

    //both session can access the logdata table
    spark.sql("SELECT * FROM global_temp.logdata").show()
    newSpark.sql("SELECT * FROM global_temp.logdata").show()

    spark.stop()
  }
}

createOrReplaceTempView在Spark 2.0中引入,用来替代registerTempTable。 CreateTempView 创建对正在使用的 Dataframe 的内存引用。它的生命周期取决于创建 Dataframe 的 spark 会话。另一方面,createGlobalTempView 允许您创建可跨 spark 会话使用的引用。因此,根据您是否需要跨会话共享数据,您可以使用其中一种方法。默认情况下,同一集群中的笔记本共享相同的 spark 会话,但可以选择设置每个笔记本都有自己的会话的集群。所以归结起来就是你在哪里创建数据框以及你想在哪里访问它。