Spark：使用 map 和 reduce 与 SparkSql

Question

我不应该问这个问题，我也不想问，但我迷路了。我看到很多使用 wordcount 作为示例的教程。但是我无法理解如何将它与 sparkSql 一起使用例如，我有以下查询

Dataset<Row> totalItem = spark.sql(" select icode from bigmart.o_sales");

它给我数据集？现在我可以遍历 totalItem 并打印结果，但我想计算该项目出现的次数。这可以用 map 和 reduce 来完成，但我不知道该怎么做。另外，如果有人知道 sparkSql 使用 java 我们可以将结果存储在变量中而不是使用 show()，我将非常感激

Answer 1

如果你想计算一个项目出现了多少次，你可以使用 sparksql 查询本身来完成，如下所示：

spark.sql("select icode,count(icode) from bigmart.o_sales group by icode")

或者您可以使用 api 如下：

val df=spark.table("bigmart.o_sales").groupBy($"icode").count.show

希望它能回答您的问题

Spark : Use map and reduce with SparkSql