回归问题的交叉验证“平衡”

crossvalidation “balancing” for regression problems

分类问题可能会在给定数据集中表现出严重的标签不平衡。这可以通过对某些 class 权重属性权重进行子采样来克服，这允许至少在模型训练期间平衡标签分布。另一方面，分层将允许保持一定的标签分布，每个相应的折叠都会保留。

对于回归问题，这是通过标准库来实现的，例如scikit-learn 未定义。覆盖 stratification and a well written theoretical approach for regression subsampling by Scott Lowe here.

的方法很少

我想知道为什么机器学习社区对回归而不是class化问题的标签平衡的关注如此之少？回归问题还表现出不同的特征，这些特征在数据收集设置中可能更容易/更难获得。那么，有没有进一步解决这个问题的框架或论文？

问题的复杂性在于回归的连续性。当你有分类的时候，很自然地把它们拆分成类因为它们基本上已经拆分成类 :) 现在，如果你有回归，拆分的可能性基本上是无限的最重要的是，根本不可能知道什么是好的拆分。在您发送的文章中，您可能会应用排序或分数方法，但最终，您不知道它们在多大程度上是正确的。您也可以将其拆分为间隔。这就是堆栈库的作用。在文档中，它说：“对于连续目标变量 overstock 使用分箱和基于分箱的分类拆分”。他们所做的是，他们首先将连续值分配给 bins(类)，然后对它们应用分层。

这方面的研究并不多，因为你能想到的一切都将是一种启发式的。但是，如果您可以结合一些领域知识，则可能会有例外。例如，假设您正在尝试根据某些特征集预测某些电磁波的频率。在那种情况下，您对波频率如何分裂有先验知识。 (https://en.wikipedia.org/wiki/Electromagnetic_spectrum) 所以现在很自然的把它们按照波长分成连续的区间，做回归分层。但除此之外，很难得出可以概括的东西。

我个人从未遇到过这方面的研究。

回归问题的交叉验证“平衡”

crossvalidation “balancing” for regression problems

regression

machine-learning

cross-validation