如何根据关键字对相似文档进行聚类?

How to cluster similar documents based on their keywords?

我正在用 R 做一个文档聚类项目。我有 100 页,我为每个页面提取了关键字。现在,我想将具有相同概念的相同页面归入同一个集群。

我找了很多文档聚类的代码,只关注关键词聚类,不关注页面聚类。对我的问题有什么建议或想法吗?

非常感谢:)

Getting Started with Latent Dirichlet Allocation using RTextTools + topicmodels

如果您从页面中提取关键字以根据关键字对页面进行聚类。您对页面聚类有何期望?