什么时候使用 Word2vec 和词袋?

When to use Word2vec and bag of words?

我仍然不确定何时使用 word2vec 以及何时依赖词袋。例如,如果我想开发一个文本聚类模型,将文本作为输入并为每个输入输出一个聚类,我应该关心单词表示并使用 word2vec 还是应该依赖词袋并处理输入文本作为文件? 请与我分享更多阅读和理解资源;我对文本预处理和聚类非常感兴趣,想尽我所能地学习它。

此外,如果我想使用 k-Means 进行聚类,我应该拆分数据还是将整个数据集中处理?

没有硬性规定。通常,对于您考虑 plausibly-appropriate 的任何一组技术,以及在您的 skills/budget 中,您都针对您的特定数据和任务尝试它们,然后选择效果更好的那些。

(随着时间的推移,您可能会对某些情况产生一些模糊的直觉,某些情况下某些方法更可能反映您任务的 'essential' 部分 - 但它们可以在 Whosebug 答案中传达所有可能性。)

如果您已经尝试过特定的事情并对结果感到惊讶或失望,这可能会产生一个 more-answerable 问题,您可以在其中提供 data/task 的细节以及您所拥有的尝试过,& 你的结果是什么,并询问具体的意外行为,或你想要的具体方面 corrected/improved。