如何修复使用 SMOTE 进行过采样时的样本 < K 邻居错误?

How to fix samples < K-neighbours error in oversampling using SMOTE?

我正在为 11 个标签设计一个多 class class 过滤器。我正在使用 SMOTE 来解决抽样问题。但是我遇到以下错误:-

SMOTE 出错

from imblearn.over_sampling import SMOTE
sm = SMOTE(random_state=42)
X_res, Y_res = sm.fit_sample(X_f, Y_f)

错误

~/.local/lib/python3.6/site-packages/sklearn/neighbors/base.py in kneighbors(self, X, n_neighbors, return_distance)
    414                 "Expected n_neighbors <= n_samples, "
    415                 " but n_samples = %d, n_neighbors = %d" %
--> 416                 (train_size, n_neighbors)
    417             )
    418         n_samples, _ = X.shape

ValueError: Expected n_neighbors <= n_samples,  but n_samples = 1, n_neighbors = 6

为什么说我只有1个n_samples?

当我对 100k 行(并且只有 4 个标签)的小得多的数据集尝试相同的代码时,它 运行 很好。

关于输入的详细信息

输入参数

X_f

array([[1.43347000e+05, 1.00000000e+00, 2.03869492e+03, ...,
        1.00000000e+00, 1.00000000e+00, 1.35233019e+03],
       [5.09050000e+04, 0.00000000e+00, 0.00000000e+00, ...,
        5.09050000e+04, 0.00000000e+00, 5.09050000e+04],
       [1.43899000e+05, 2.00000000e+00, 2.11447368e+03, ...,
        1.00000000e+00, 2.00000000e+00, 1.39707767e+03],
       ...,
       [8.50000000e+01, 0.00000000e+00, 0.00000000e+00, ...,
        8.50000000e+01, 0.00000000e+00, 8.50000000e+01],
       [2.33000000e+02, 4.00000000e+00, 4.90000000e+01, ...,
        4.00000000e+00, 4.00000000e+00, 7.76666667e+01],
       [0.00000000e+00, 0.00000000e+00, 0.00000000e+00, ...,
        0.00000000e+00, 0.00000000e+00, 0.00000000e+00]])

Y_f

array([[1., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       ...,
       [1., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 1.]])

输入参数的维度

print(X_f.shape, Y_f.shape)
(2087620, 31) (2087620, 11)

我尝试使用 imblearn 包的其他技术

调试 SMOTE fit_resample() 方法我知道 SMOTE 的工作原理是使用少数数据点的最近邻居之间的欧氏距离来合成少数样本。所以我在 ../python3.6/site-packages/sklearn/neighbors/base.py 文件中打印出了 n_samples 变量。它显示样本从 5236 -> 103 -> 3 稳步减少,然后我得到了错误。我不明白这是怎么回事。

  1. 使用 SVMSMOTE:- 计算时间太长(超过 2 天),PC 崩溃。
  2. 使用 RandomOverSampler:- 模型给出的准确度很差,为 45%
  3. 使用不同的 sampling_strategy:- 仅适用于 minority
  4. 也提供了 and here 的建议,未成功。老实说,我听不懂。
  5. 当我将数据集减少到 100k、1k 和 5k 行时收到相同的错误。

尽管尝试了很多,但我还是不太明白。我是采样方面的新手。你能帮我解决这个问题吗?

我今天遇到了类似的问题。当我增加数据集的行数时,问题得到解决。 当我更改为 n_rows = 5000 时,我首先尝试使用 n_rows = 1000 的子样本,但不再出现错误。

由于数据集的输入大小非常大,您可能会发现在应用 imblearn 之前减小数据集的大小很有用。事实上,您会在 Web 上找到一些实验,这些实验表明存在数据集长度阈值,分类器不会显着提高其性能。 Here 这些实验之一。

出现此错误是因为数据集中的某些实例太少。例如,在一个 2M 的强数据集中,只有一个实例具有特定标签“����”。

因此,对于此实例,SMOTE 算法没有可合成副本的样本。仔细检查您的数据集,确保它干净可用。

使用 df.where("Label != '���'")

删除了不必要的实例