数据集平面图组缺少参数类型

dataset flatmap groupBy missing parameter type

我有一个数据集,其中有一列包含数字列表。

我想计算所有这些列表中每个数字的出现次数。所以我做了一个 flatMap,以获得一组所有整数。我想对它进行分组,以便每个数字只有一次,然后添加出现次数(在第二列或其他内容中)。 到目前为止我的代码:

val counts = dataset.flatMap(_.intLists).groupBy(i => identity(i)).count

但它总是说,"i" 缺少参数类型。我想我需要告诉它它是一个 Int,但我该怎么做呢?还是我错过了完全不同的东西?

在类路径中使用 Spark 2.0.2 依赖项测试您的代码,我看到 groupBy 方法需要 StringColumn

您可能想要使用 groupByKey 方法,该方法采用函数来提取分组键(在您的示例中,identity)。

val counts = dataset.flatMap(_.intLists).groupByKey(identity).count