监督学习中分类器训练需要多少条记录

how many records are required for classifier training in supervised learning

嗨,我是机器新手 learning.i 想训练一个 KNN-classifier,数据集有 50 个完整记录(没有缺失值)和 103 个不完整记录(包括缺失值)

我想问一下,这个数据集是否可以用于 classification 目的。或者我应该搜索一些新的数据集?

我附上了我数据集中的一些屏幕截图。POS 是数据集中的标签 class。

screenshot of dataset

寻找安全数据集,例如 scikit 学习本身提供的默认 "iris dataset" 您还可以在 UCI 机器学习存储库中搜索好的数据集。

如果您的特征 space 的大小为 n,即没有输入列,而不是 k*n,其中 k >= 3,完整的样本量应该是一个很好的数量开始的数据。

您还可以考虑使用均值或任何其他外推法来估算数据(缺失值)。

One rough heuristic that is sometimes advocated is that the number of data points should be no less than some multiple (say 5 or 10) of the number of adaptive parameters in the model. - Bishop, Page no. 9