分层抽样回归

Stratified sampling for regression

我需要使用 SVM 内核对大型数据集进行回归分析。我的笔记本电脑无法处理,需要几个小时才能完成 运行。有没有什么好的方法可以在不影响模型(很多)质量的情况下减小数据集的大小?分层抽样有用吗?

几十种 降低 SVM 复杂性的方法,可能最简单的方法涉及 近似内核 space 投影 。特别是库,例如 scikit-learn provides functions to do this 种显式投影,其后是线性 SVM - 可以相对快速地进行训练。