Spark MLlib IDF 是否随机播放数据?
Does Spark MLlib IDF shuffle data?
在下面的代码中,spark 在计算 IDF 和 TF-IDF 向量时是否需要打乱数据?
val hashingTF = new HashingTF()
val tf: RDD[Vector] = hashingTF.transform(documents)
tf.cache()
val idf = new IDF().fit(tf)
val tfidf: RDD[Vector] = idf.transform(tf)
它不随机播放:
- 两种
transform
方法都是使用RDD.map
实现的
IDF.fit
是使用 RDD.treeAggregate
. 实现的
当 miDocFreq
较低时,fit
方法可能仍然相当昂贵。
在下面的代码中,spark 在计算 IDF 和 TF-IDF 向量时是否需要打乱数据?
val hashingTF = new HashingTF()
val tf: RDD[Vector] = hashingTF.transform(documents)
tf.cache()
val idf = new IDF().fit(tf)
val tfidf: RDD[Vector] = idf.transform(tf)
它不随机播放:
- 两种
transform
方法都是使用RDD.map
实现的
IDF.fit
是使用RDD.treeAggregate
. 实现的
当 miDocFreq
较低时,fit
方法可能仍然相当昂贵。