压缩最近邻算法 - 返回数组的混淆

Condensed Nearest Neighbor Algorithm - Confusion on Returning Array

我有一个关于压缩最近邻算法的问题:

为什么我 returning Z,如果我理解正确的话,它是所有错误分类点的数组?我不想 return 正确分类的点吗?这对我 return 错误的所有要点有什么好处?

您正在选择 2 个彼此非常接近但具有不同 class 的实例。这意味着新点很可能位于分隔 classes 的边界中,这意味着将其保留在我们稍后将用于 classification 的集合中很重要。这就是你将它添加到 Z 的原因。

如果它们相同 class,这意味着新点没有提供比我们在 Z 中已有的有用的信息,所以我们跳过它并且不添加它。直觉是我们尝试只保留每个 class 的边界点并跳过相同 class 边界中间的点。

请记住,这仍然是一种贪婪的方法,如果我们按其他顺序处理,我们丢弃的点可能会有用。 wikipedia article.

也很有用