在机器学习中从多维space中选择多样化数据集子样本的方法？

Methods for selecting a diverse data-set subsample from multi-dimensional space in machine learning?

我正在考虑创建一个尽可能多样化的训练集，同时将数据压缩到更小的大小（取决于数据点在数据集中的相似程度）。这是为了防止过度拟合数据中相对不重要的部分。解释如下：

问题描述如下：我在赛车数据上训练，有相当一部分路比较直。这部分数据包含的方差比较小，也比较不重要。留在路上并加快速度。在我看来，最困难的部分是：角球预测，即你开角的 speed/angle。

为了简化问题并最大限度地学习这部分内容，我想 select 仅显示明显不同的数据点。因此，在保留不同类型拐角的数据的同时，显着减少直线部分（以及相同类型的拐角）的数据。数据基本上是一个 50 维的向量。我想保留维数，只想让这个多维space中数据点的密度更加均等。我也不知道有什么好的方法可以量化 "more equal"。因此，这个问题基本上是一个关于预处理数据的问题。

是否有任何方法已经做到了这一点，或者是否有其他方法可以达到同样的效果 objective？

如果我对你的数据集的理解正确，你需要对向量进行平滑处理，然后得到原始向量与平滑向量之间的最显着偏差。 Savitzky–Golay filter is a common way to smooth data through an array (vector). If you decided to use Python, then scipy.signal.savgol_filter 正是您所需要的。

A good answer related to the topic.

在机器学习中从多维space中选择多样化数据集子样本的方法？

Methods for selecting a diverse data-set subsample from multi-dimensional space in machine learning?

python

machine-learning

data-processing