回归问题的交叉验证“平衡”

crossvalidation “balancing” for regression problems

分类问题可能会在给定数据集中表现出严重的标签不平衡。这可以通过对某些 class 权重属性权重进行子采样来克服,这允许至少在模型训练期间平衡标签分布。另一方面,分层将允许保持一定的标签分布,每个相应的折叠都会保留。

对于回归问题,这是通过标准库来实现的,例如scikit-learn 未定义。覆盖 stratification and a well written theoretical approach for regression subsampling by Scott Lowe here.

的方法很少

我想知道为什么机器学习社区对回归而不是class化问题的标签平衡的关注如此之少?回归问题还表现出不同的特征,这些特征在数据收集设置中可能更容易/更难获得。那么,有没有进一步解决这个问题的框架或论文?

问题的复杂性在于回归的连续性。当你有分类的时候,很自然地把它们拆分成 类 因为它们基本上已经拆分成 类 :) 现在,如果你有回归,拆分的可能性基本上是无限的最重要的是,根本不可能知道什么是好的拆分。在您发送的文章中,您可能会应用排序或分数方法,但最终,您不知道它们在多大程度上是正确的。您也可以将其拆分为间隔。这就是堆栈库的作用。在文档中,它说:“对于连续目标变量 overstock 使用分箱和基于分箱的分类拆分”。他们所做的是,他们首先将连续值分配给 bins(类),然后对它们应用分层。

这方面的研究并不多,因为你能想到的一切都将是一种启发式的。但是,如果您可以结合一些领域知识,则可能会有例外。例如,假设您正在尝试根据某些特征集预测某些电磁波的频率。在那种情况下,您对波频率如何分裂有先验知识。 (https://en.wikipedia.org/wiki/Electromagnetic_spectrum) 所以现在很自然的把它们按照波长分成连续的区间,做回归分层。但除此之外,很难得出可以概括的东西。

我个人从未遇到过这方面的研究。