无监督离散化,将连续数据转换为分类数据,用于频繁项集挖掘
Unsupervised discretization to convert continuous into categorical for frequent item set mining
我正在使用“arules”包来挖掘我的大数据中的频繁项集,但我找不到合适的离散化方法。
作为Package 'arules'中的例子,在函数'discretization'中可以使用几种基本的无监督方法,但我想估计我的大数据集中的最佳类别数量,这似乎比分配数量更合理类别数。
能不能给点好的建议,谢谢。
我认为关于无监督离散化的指导很少。查看每个变量的直方图并手动决定。对于 k 均值,您可能会使用策略来使用内部验证技术(即肘部方法)找到 k。对于监督离散化,存在可帮助您做出决定的方法。也许其他人可以在这里提供帮助。
我正在使用“arules”包来挖掘我的大数据中的频繁项集,但我找不到合适的离散化方法。
作为Package 'arules'中的例子,在函数'discretization'中可以使用几种基本的无监督方法,但我想估计我的大数据集中的最佳类别数量,这似乎比分配数量更合理类别数。
能不能给点好的建议,谢谢。
我认为关于无监督离散化的指导很少。查看每个变量的直方图并手动决定。对于 k 均值,您可能会使用策略来使用内部验证技术(即肘部方法)找到 k。对于监督离散化,存在可帮助您做出决定的方法。也许其他人可以在这里提供帮助。