数字上的 Spark IDFModel

Spark IDFModel on numbers

tf-idf
apache-spark-mllib

我想对 "document" 内容是数字标识符（而不是文本）的数据执行 TF-IDF 模型。所以我不想散列它们，而是使用数值。有什么简单的方法可以生成 org.apache.spark.mllib.linalg.VectorUDT？我必须编写自己的非哈希 HashingTF 吗？
或者我自己计算 tfidf 更简单？

您可以使用 CountVectorizer 而不是 HashingTF。 CountVectorizer 也可用于获取词频向量。

要使用 CountVectorizer 并随后使用 IDF，您必须使用 DataFrame 而不是 RDD，因为 CountVectorizer 仅在 ml 包中受支持。

数字上的 Spark IDFModel

Spark IDFModel on numbers

tf-idf

apache-spark-mllib