证明数据挖掘模型的成功

Proving the Success of data mining models

我对如何验证通过 data mining algorithms 生成的 data mining models 的有用性感到有点困惑。对于 classification,我确定我们可以 Partition 将数据放入测试和训练集中。我们如何确定从 clustering and association 生成的模型的有效性?

关联规则可用于预测,因此可以通过拆分数据以相同的方式进行评估。

聚类:您将如何使用结果?

"prove" 聚类的方法是使用结果来提高分类性能,或者通过向 人类 用户提供见解。如果用户从集群中获得洞察力,那么它就成功了!

对于聚类(和关联规则),您可以使用交叉验证来验证准确性。例如,Weka 提供了检查聚类准确性的工具,以便您可以调整参数(例如,聚类数等)。查看相关 question