监督学习中分类器训练需要多少条记录
how many records are required for classifier training in supervised learning
嗨,我是机器新手 learning.i 想训练一个 KNN-classifier,数据集有 50 个完整记录(没有缺失值)和 103 个不完整记录(包括缺失值)
我想问一下,这个数据集是否可以用于 classification 目的。或者我应该搜索一些新的数据集?
我附上了我数据集中的一些屏幕截图。POS 是数据集中的标签 class。
screenshot of dataset
寻找安全数据集,例如 scikit 学习本身提供的默认 "iris dataset"
您还可以在 UCI 机器学习存储库中搜索好的数据集。
如果您的特征 space 的大小为 n
,即没有输入列,而不是 k*n
,其中 k >= 3,完整的样本量应该是一个很好的数量开始的数据。
您还可以考虑使用均值或任何其他外推法来估算数据(缺失值)。
One rough heuristic that is sometimes advocated is that the number of
data points should be no less than some multiple (say 5 or 10) of the
number of adaptive parameters in the model. - Bishop, Page no. 9
嗨,我是机器新手 learning.i 想训练一个 KNN-classifier,数据集有 50 个完整记录(没有缺失值)和 103 个不完整记录(包括缺失值)
我想问一下,这个数据集是否可以用于 classification 目的。或者我应该搜索一些新的数据集?
我附上了我数据集中的一些屏幕截图。POS 是数据集中的标签 class。
screenshot of dataset
寻找安全数据集,例如 scikit 学习本身提供的默认 "iris dataset" 您还可以在 UCI 机器学习存储库中搜索好的数据集。
如果您的特征 space 的大小为 n
,即没有输入列,而不是 k*n
,其中 k >= 3,完整的样本量应该是一个很好的数量开始的数据。
您还可以考虑使用均值或任何其他外推法来估算数据(缺失值)。
One rough heuristic that is sometimes advocated is that the number of data points should be no less than some multiple (say 5 or 10) of the number of adaptive parameters in the model. - Bishop, Page no. 9