将文本文件分成两组——无监督学习

Split text files into two groups - unsupervised learning

想象一下,您是一名图书管理员,在一段时间内您 对一堆文本文件进行了分类(大约 100 个) 使用一般的模糊关键字。

每个文本文件实际上是keyword_meaning1的一个主题 或 keyword_meaning2.

的主题

您会使用哪种无监督学习方法, 将文本文件分成两组?

正确分类的精度(百分比) 可以实现根据多个文本文件吗?

或者可以在一组中以某种方式表示,有 图书管理员需要检查某些文件,因为 他们可能分类不正确?

最简单的起点是使用朴素贝叶斯分类器。很难推测预期的精度。你必须自己测试。只需获取一个垃圾邮件检测程序并试用即可。例如,SpamBayes (http://spambayes.sourceforge.net/) 是一个很好的起点并且很容易破解。 SpamBayes 有一个很好的功能,当两个 类.

之间没有明确的分隔时,它会将消息标记为 "unsure"

编辑:当你真的想要无监督的聚类方法时,也许像 Carrot2 (http://project.carrot2.org/) 这样的方法更合适。