数字上的 Spark IDFModel

Spark IDFModel on numbers

我想对 "document" 内容是数字标识符(而不是文本)的数据执行 TF-IDF 模型。所以我不想散列它们,而是使用数值。有什么简单的方法可以生成 org.apache.spark.mllib.linalg.VectorUDT?我必须编写自己的非哈希 HashingTF 吗?
或者我自己计算 tfidf 更简单?

您可以使用 CountVectorizer 而不是 HashingTF。 CountVectorizer 也可用于获取词频向量。

要使用 CountVectorizer 并随后使用 IDF,您必须使用 DataFrame 而不是 RDD,因为 CountVectorizer 仅在 ml 包中受支持。