数据集平面图组缺少参数类型
dataset flatmap groupBy missing parameter type
我有一个数据集,其中有一列包含数字列表。
我想计算所有这些列表中每个数字的出现次数。所以我做了一个 flatMap,以获得一组所有整数。我想对它进行分组,以便每个数字只有一次,然后添加出现次数(在第二列或其他内容中)。
到目前为止我的代码:
val counts = dataset.flatMap(_.intLists).groupBy(i => identity(i)).count
但它总是说,"i" 缺少参数类型。我想我需要告诉它它是一个 Int,但我该怎么做呢?还是我错过了完全不同的东西?
在类路径中使用 Spark 2.0.2 依赖项测试您的代码,我看到 groupBy
方法需要 String
或 Column
。
您可能想要使用 groupByKey
方法,该方法采用函数来提取分组键(在您的示例中,identity
)。
val counts = dataset.flatMap(_.intLists).groupByKey(identity).count
我有一个数据集,其中有一列包含数字列表。
我想计算所有这些列表中每个数字的出现次数。所以我做了一个 flatMap,以获得一组所有整数。我想对它进行分组,以便每个数字只有一次,然后添加出现次数(在第二列或其他内容中)。 到目前为止我的代码:
val counts = dataset.flatMap(_.intLists).groupBy(i => identity(i)).count
但它总是说,"i" 缺少参数类型。我想我需要告诉它它是一个 Int,但我该怎么做呢?还是我错过了完全不同的东西?
在类路径中使用 Spark 2.0.2 依赖项测试您的代码,我看到 groupBy
方法需要 String
或 Column
。
您可能想要使用 groupByKey
方法,该方法采用函数来提取分组键(在您的示例中,identity
)。
val counts = dataset.flatMap(_.intLists).groupByKey(identity).count