使用 word2vec 模型作为文本聚类的特征提取器是否有优势?

Is there an advantage in using a word2vec model as a feature extractor for text clustering?

我正在使用 scikit-learn 进行文本分类 the example in the documentation

为了提取特征,即转换一组向量中的文本,该示例使用 HashingVectorizer and a TfidfVectorizer 向量化器。

我正在矢量化器之前进行词干化,以处理同一单词的不同词干。也就是说,我希望将“运行ning”和“运行”映射到相同的向量。

我想知道使用 word2vec model 作为矢量化器是否有优势。我认为这将使我能够处理同义词,即将具有相同含义的不同单词映射到向量 space.

中彼此非常接近的向量

我的推理是否正确,或者以下 KMeans 聚类算法会为我处理同义词?

是的,基于 word2vec 的特征有时会提供优势。

但它是否有帮助以及如何提供帮助将取决于您的确切 data/goals,以及您在尝试 word2vec 增强方法之前取得的基准结果。你的问题中没有描述或显示这些。

scikit-learn example you report as your model 没有集成任何 word2vec 功能。如果添加此类功能会怎样? (作为一个非常笨拙但简单的示例,如果您将 HashingVectorizer 替换或连接成一个向量,该向量是所有文本的词向量的平均值。)

结果是否有所改善,无论是通过一些定量评分还是通过粗略的目测审查?