仅使用重要属性,还是在检查信息增益后使用全套属性来构建 J48 模型?

Use significant attributes only, or use full set of attributes to build J48 model after checking information gain?

Weka 的 J48 允许检查一整套属性的信息增益,我应该使用那些重要的属性来构建我的模型吗?还是应该使用全套属性?

在数据挖掘中,您使用的特征数量、准确性和生成模型所需的时间之间存在多方面的权衡。从理论上讲,您希望包括所有可能的功能以提高准确性;但是,以这种方式进行数据挖掘会导致模型生成时间过长。此外,当树有数千个节点时,生成像 J48 这样的文本决策树的模型就没有那么有用了。

根据您开始使用的特征数量,您可能非常希望删除不能提供足够大信息增益的特征。如果您一开始只有少量特征(例如少于 20 个),那么保留所有特征可能是有意义的。

如果您确实希望限制使用的功能数量,最好选择信息增益最高的功能。研究主成分缩减(可以通过 WEKA 完成)以帮助 select 最好的功能也是值得的。