为什么手写数字分类没有明确的排序?
Why there is no explicit ordering in handwritten digit classification?
来自 The Elements of Statistical Learning 的第 2 章:
显然0,1,2,3...,9是可以排序的。我误会了什么?是因为这些数字的顺序不利于分类吗?
这里的关键词是手写.
当我们尝试class验证手写数字 (MNIST) 的 图像 时,实际数字的算术值(因此,他们的顺序)不是class化问题的一部分;其中,class(即数字)“9”不是 "greater" 而不是 class“8”(也不是 "less"),[=45 之间的距离=] "9" 和 class "8" 与 "9" 和 "3" 之间的距离相同(实际上,它在所有对 classes 之间都是相同的)。换句话说,数字被视为分类变量。
换句话说,此处的class化方法与我们用来class化手写字母的方法相同当然没有任何算术意义上的排序(没有字母比其他任何字母 "greater" 或 "less")。
另一个可能有用的类比是数字 9
和字符 '9'
;事实上,在手写数字 classification 中,我们处理的是第二个,而不是数字。而characters/strings,和字母一样,不带任何算术顺序。
情况是相同的,例如,对于 iris 数据集,或者在我们试图预测性别的问题中 (male/female)。
存在class化问题,标签虽然是分类的,但也是序数(即它们是有序的) ,例如像 high/medium/low 这样的东西;但是 class验证 MNIST 数字不属于这一类 - 这都是关于数字图像的模式识别和辨别,而不使用它们的实际值或排序。
来自 The Elements of Statistical Learning 的第 2 章:
显然0,1,2,3...,9是可以排序的。我误会了什么?是因为这些数字的顺序不利于分类吗?
这里的关键词是手写.
当我们尝试class验证手写数字 (MNIST) 的 图像 时,实际数字的算术值(因此,他们的顺序)不是class化问题的一部分;其中,class(即数字)“9”不是 "greater" 而不是 class“8”(也不是 "less"),[=45 之间的距离=] "9" 和 class "8" 与 "9" 和 "3" 之间的距离相同(实际上,它在所有对 classes 之间都是相同的)。换句话说,数字被视为分类变量。
换句话说,此处的class化方法与我们用来class化手写字母的方法相同当然没有任何算术意义上的排序(没有字母比其他任何字母 "greater" 或 "less")。
另一个可能有用的类比是数字 9
和字符 '9'
;事实上,在手写数字 classification 中,我们处理的是第二个,而不是数字。而characters/strings,和字母一样,不带任何算术顺序。
情况是相同的,例如,对于 iris 数据集,或者在我们试图预测性别的问题中 (male/female)。
存在class化问题,标签虽然是分类的,但也是序数(即它们是有序的) ,例如像 high/medium/low 这样的东西;但是 class验证 MNIST 数字不属于这一类 - 这都是关于数字图像的模式识别和辨别,而不使用它们的实际值或排序。