如何在 WEKA 上使用 2 个数据集,1 个用于训练,1 个用于测试以进行情感分析
How to use 2 dataset, 1 for training and 1 for testing on WEKA for sentiment analysis
所以我有 3 个用于情绪分析的数据集,我只想使用 1 个数据集来构建模型,其余数据集用于测试目的。我将使用的模型是 SVM(SMO 算法)。开始时的数据集只有 2 个属性(文本、标签),但在用字符串预处理为 wordvector 后,它变成了许多属性。我能够构建模型并使用 10 折交叉验证对其进行测试,现在我想使用其他数据集对其进行测试。但是由于它由于字符串到词向量而具有不同的属性,所以我不能这样做。我的问题有什么解决方案吗?
我已经对测试集应用了相同的预处理并尝试使用 "inputmappedclassifier" 但结果仍然是错误
我希望该模型可以用于它从未见过的数据集
见http://jmgomezhidalgo.blogspot.com/2013/05/mapping-vocabulary-from-train-to-test.html
如果您知道训练数据和测试数据,则可以使用批量过滤。
如果您不知道测试数据,那么您可以使用 FilteredClassfier 方法。检查 http://jmgomezhidalgo.blogspot.com/2013/01/text-mining-in-weka-chaining-filters.html and http://jmgomezhidalgo.blogspot.com/2013/04/a-simple-text-classifier-in-java-with.html
也看看How to use StringToWordVector (weka) in java?
所以我有 3 个用于情绪分析的数据集,我只想使用 1 个数据集来构建模型,其余数据集用于测试目的。我将使用的模型是 SVM(SMO 算法)。开始时的数据集只有 2 个属性(文本、标签),但在用字符串预处理为 wordvector 后,它变成了许多属性。我能够构建模型并使用 10 折交叉验证对其进行测试,现在我想使用其他数据集对其进行测试。但是由于它由于字符串到词向量而具有不同的属性,所以我不能这样做。我的问题有什么解决方案吗?
我已经对测试集应用了相同的预处理并尝试使用 "inputmappedclassifier" 但结果仍然是错误
我希望该模型可以用于它从未见过的数据集
见http://jmgomezhidalgo.blogspot.com/2013/05/mapping-vocabulary-from-train-to-test.html
如果您知道训练数据和测试数据,则可以使用批量过滤。
如果您不知道测试数据,那么您可以使用 FilteredClassfier 方法。检查 http://jmgomezhidalgo.blogspot.com/2013/01/text-mining-in-weka-chaining-filters.html and http://jmgomezhidalgo.blogspot.com/2013/04/a-simple-text-classifier-in-java-with.html
也看看How to use StringToWordVector (weka) in java?