Spark MLlib IDF 是否随机播放数据?

Does Spark MLlib IDF shuffle data?

在下面的代码中,spark 在计算 IDF 和 TF-IDF 向量时是否需要打乱数据?

val hashingTF = new HashingTF()
val tf: RDD[Vector] = hashingTF.transform(documents)
tf.cache()
val idf = new IDF().fit(tf)
val tfidf: RDD[Vector] = idf.transform(tf)

它不随机播放:

  • 两种transform方法都是使用RDD.map
  • 实现的
  • IDF.fit 是使用 RDD.treeAggregate.
  • 实现的

miDocFreq 较低时,fit 方法可能仍然相当昂贵。