自定义 TF-IDF 的 Apache Spark 实现
Customize Apache Spark implementation of TF-IDF
一方面,我想使用 spark 功能为一组文档计算 TF-IDF,另一方面,TF-IDF 的典型定义(Spark 实现基于此)不适合我的情况。我希望 TF 成为所有文档中的术语频率,但在典型的 TF-IDF 中,它是针对每一对(单词,文档)的。 IDF定义与典型定义相同
我使用 Spark RDD 实现了自定义的 TF-IDF,但我想知道是否有任何方法可以自定义 Spark TF-IDF 的源代码,以便我可以使用它的功能,例如哈希。
实际上,我需要这样的东西:
public static class newHashingTF implements Something<String>
谢谢
实现不同的散列策略非常简单,正如您从 HashingTF
:
的简单性中看到的那样
- (现代)Dataset version
- (旧)RDD version
这个talk and its slides可以提供帮助,网上还有很多其他的。
一方面,我想使用 spark 功能为一组文档计算 TF-IDF,另一方面,TF-IDF 的典型定义(Spark 实现基于此)不适合我的情况。我希望 TF 成为所有文档中的术语频率,但在典型的 TF-IDF 中,它是针对每一对(单词,文档)的。 IDF定义与典型定义相同
我使用 Spark RDD 实现了自定义的 TF-IDF,但我想知道是否有任何方法可以自定义 Spark TF-IDF 的源代码,以便我可以使用它的功能,例如哈希。
实际上,我需要这样的东西:
public static class newHashingTF implements Something<String>
谢谢
实现不同的散列策略非常简单,正如您从 HashingTF
:
- (现代)Dataset version
- (旧)RDD version
这个talk and its slides可以提供帮助,网上还有很多其他的。