在机器学习中从多维space中选择多样化数据集子样本的方法?

Methods for selecting a diverse data-set subsample from multi-dimensional space in machine learning?

我正在考虑创建一个尽可能多样化的训练集,同时将数据压缩到更小的大小(取决于数据点在数据集中的相似程度)。这是为了防止过度拟合数据中相对不重要的部分。解释如下:

问题描述如下: 我在赛车数据上训练,有相当一部分路比较直。这部分数据包含的方差比较小,也比较不重要。留在路上并加快速度。在我看来,最困难的部分是:角球预测,即你开角的 speed/angle。

为了简化问题并最大限度地学习这部分内容,我想 select 仅显示明显不同的数据点。因此,在保留不同类型拐角的数据的同时,显着减少直线部分(以及相同类型的拐角)的数据。数据基本上是一个 50 维的向量。我想保留维数,只想让这个多维space中数据点的密度更加均等。我也不知道有什么好的方法可以量化 "more equal"。因此,这个问题基本上是一个关于预处理数据的问题。

是否有任何方法已经做到了这一点,或者是否有其他方法可以达到同样的效果 objective?

如果我对你的数据集的理解正确,你需要对向量进行平滑处理,然后得到原始向量与平滑向量之间的最显着偏差。 Savitzky–Golay filter is a common way to smooth data through an array (vector). If you decided to use Python, then scipy.signal.savgol_filter 正是您所需要的。

A good answer related to the topic.