了解 Spark 的一些基础知识 SQL

Question

我正在关注 http://spark.apache.org/docs/latest/sql-programming-guide.html

输入后：

val df = spark.read.json("examples/src/main/resources/people.json")

// Displays the content of the DataFrame to stdout
df.show()
// +----+-------+
// | age|   name|
// +----+-------+
// |null|Michael|
// |  30|   Andy|
// |  19| Justin|
// +----+-------+

我有一些问题没有看到答案。

首先，$符号是什么？如

 df.select($"name", $"age" + 1).show()

其次，我可以只从第二行获取数据吗（我不知道第二行的数据是什么）。

第三，你会如何读入带有火花的彩色图像sql？

4th，我仍然不确定 spark 中的数据集和数据帧之间的区别。变量 df 是一个数据帧，那么我可以将 "Michael" 更改为整数 5 吗？我可以在数据集中这样做吗？

Answer 1

$ 不是注解。它是 a method call（new ColumnName("name") 的快捷方式）。
你不会。 Spark SQL 没有行索引的概念。
你不会。您可以将低级 RDD API 与特定输入格式（例如来自 HIPI 项目的格式）一起使用，然后进行转换。
Difference between DataSet API and DataFrame

Answer 2

1) 对于问题 1，$ 符号用作选择列并在其上应用函数的快捷方式。例如：

df.select($"id".isNull).show

也可以写成

df.select(col("id").isNull)

2) Spark 没有索引，但对于原型设计，您可以使用 df.take(10)(i)，其中 i 可能是您想要的元素。注意：每次对基础数据进行分区时，行为可能会有所不同。

了解 Spark 的一些基础知识 SQL

Understanding some basics of Spark SQL

scala

apache-spark

apache-spark-sql

apache-spark-dataset