机器学习算法结果的区别?
Diffrents between the result of machine learning algorithm?
我正在从事一个文本挖掘项目,我使用带标签的推文数据集(是或否地震相关推文包括 8000 个样本)来训练 Naive、MLP(深度学习)LibSVM 分类器进行分类(是或否) RapidMiner 上未标记的推文(28000 个样本)。这是三种机器学习算法的结果:
天真
准确度= 80%
标记为 "yes"= 6056
的推文数量
MLP
准确率= 86%
标记的推文数量"yes"= 2300
LibSVM
准确率= 92%
标记为 "yes"= 53
的推文数量
我的问题是为什么带标签的推文数量大不相同?
我假设您给出的准确性来自标记数据集的模型构建过程。这表示经过训练的模型可以 "reproduce" 训练数据的正确标签的程度。在你未知的、未标记的推文中,分配标签数量的巨大差异似乎表明你的模型存在严重的过度拟合问题。这意味着模型训练有素,可以重现训练数据,但无法概括新的未知数据。
作为第一个建议,请检查您的验证步骤。有交叉验证等基本技术可以避免过度拟合,但是通过将有关测试集的知识引入训练数据,"trick" 自己有很多可能性。
但是,没有具体的流程设置,我们只能推测。
我正在从事一个文本挖掘项目,我使用带标签的推文数据集(是或否地震相关推文包括 8000 个样本)来训练 Naive、MLP(深度学习)LibSVM 分类器进行分类(是或否) RapidMiner 上未标记的推文(28000 个样本)。这是三种机器学习算法的结果:
天真
准确度= 80%
标记为 "yes"= 6056
的推文数量MLP
准确率= 86%
标记的推文数量"yes"= 2300
LibSVM
准确率= 92%
标记为 "yes"= 53
的推文数量我的问题是为什么带标签的推文数量大不相同?
我假设您给出的准确性来自标记数据集的模型构建过程。这表示经过训练的模型可以 "reproduce" 训练数据的正确标签的程度。在你未知的、未标记的推文中,分配标签数量的巨大差异似乎表明你的模型存在严重的过度拟合问题。这意味着模型训练有素,可以重现训练数据,但无法概括新的未知数据。
作为第一个建议,请检查您的验证步骤。有交叉验证等基本技术可以避免过度拟合,但是通过将有关测试集的知识引入训练数据,"trick" 自己有很多可能性。
但是,没有具体的流程设置,我们只能推测。