自定义 TF-IDF 的 Apache Spark 实现

Customize Apache Spark implementation of TF-IDF

一方面,我想使用 spark 功能为一组文档计算 TF-IDF,另一方面,TF-IDF 的典型定义(Spark 实现基于此)不适合我的情况。我希望 TF 成为所有文档中的术语频率,但在典型的 TF-IDF 中,它是针对每一对(单词,文档)的。 IDF定义与典型定义相同

我使用 Spark RDD 实现了自定义的 TF-IDF,但我想知道是否有任何方法可以自定义 Spark TF-IDF 的源代码,以便我可以使用它的功能,例如哈希。

实际上,我需要这样的东西:

public static class newHashingTF implements Something<String>

谢谢

实现不同的散列策略非常简单,正如您从 HashingTF:

的简单性中看到的那样

这个talk and its slides可以提供帮助,网上还有很多其他的。