低维和高维数据
Low and high dimensional data
我是机器学习的新手,在学习 SVM 时我发现了这个词:"Low and high dimensional data" 所以谁能向我解释一下它们是什么以及有什么区别?
它通常是指您要分类的问题中每个样本的特征数量。例如,著名的鸢尾花数据集仅包含 4 个特征(萼片长度、萼片宽度、花瓣宽度、花瓣长度),将被视为低维数据集。
处理更复杂数据的其他数据集可能包含每个样本的成百上千个特征。这些被认为是高维数据集。
如 The Elements of Statistical Learning(第 18 章第 649 页 - 或此处链接的第 2 版 pdf 的第 668 页)中所定义,高维问题是
the number of features p is much larger than the number of
observations N, often written p>>N
所以高维数据实际上并不是关于大量的特征(正如公认的答案所暗示的那样),它是由features/samples比率定义的。请注意,此定义适用于机器学习社区,但可能与其他领域的相同想法无关。
正如这个 quora answer 所暗示的那样,在产生确定性答案时,使用高维数据开发模型通常等同于引入强假设。
High/low 维数与数据集中观察值和特征之间的比率相关。如果观测值的数量明显低于特征的数量,则将其视为高维数据集。
我是机器学习的新手,在学习 SVM 时我发现了这个词:"Low and high dimensional data" 所以谁能向我解释一下它们是什么以及有什么区别?
它通常是指您要分类的问题中每个样本的特征数量。例如,著名的鸢尾花数据集仅包含 4 个特征(萼片长度、萼片宽度、花瓣宽度、花瓣长度),将被视为低维数据集。
处理更复杂数据的其他数据集可能包含每个样本的成百上千个特征。这些被认为是高维数据集。
如 The Elements of Statistical Learning(第 18 章第 649 页 - 或此处链接的第 2 版 pdf 的第 668 页)中所定义,高维问题是
the number of features p is much larger than the number of observations N, often written p>>N
所以高维数据实际上并不是关于大量的特征(正如公认的答案所暗示的那样),它是由features/samples比率定义的。请注意,此定义适用于机器学习社区,但可能与其他领域的相同想法无关。
正如这个 quora answer 所暗示的那样,在产生确定性答案时,使用高维数据开发模型通常等同于引入强假设。
High/low 维数与数据集中观察值和特征之间的比率相关。如果观测值的数量明显低于特征的数量,则将其视为高维数据集。