sortByKey 不适用于 Dstream
sortByKey is not working on Dstream
我正在使用 Dstream(Spark Streaming) 的 Transform API 对数据进行排序。
我正在使用 netcat 从 TCP 套接字读取数据。
按照使用的代码行:
myDStream.transform(rdd=>rdd.sortByKey())
找不到函数sortByKey。谁能帮忙看看这一步有什么问题吗?
如果您使用 netcat
作为输入,您可能会使用 socketTextStream
而 returns ReceiverInputDStream[String]
。在那种情况下 transform
将采用函数:
(RDD[String]) => RDD[U]
只有RDD[(T, U)]
,其中T
有对应的Orderign
可以是sortedByKey
。对于其他 RDD
你可以使用 sortBy
:
myDSTream.transform(rdd => rdd.sortBy(x => x))
我正在使用 Dstream(Spark Streaming) 的 Transform API 对数据进行排序。 我正在使用 netcat 从 TCP 套接字读取数据。 按照使用的代码行: myDStream.transform(rdd=>rdd.sortByKey())
找不到函数sortByKey。谁能帮忙看看这一步有什么问题吗?
如果您使用 netcat
作为输入,您可能会使用 socketTextStream
而 returns ReceiverInputDStream[String]
。在那种情况下 transform
将采用函数:
(RDD[String]) => RDD[U]
只有RDD[(T, U)]
,其中T
有对应的Orderign
可以是sortedByKey
。对于其他 RDD
你可以使用 sortBy
:
myDSTream.transform(rdd => rdd.sortBy(x => x))