是否可以用标记数据训练情绪分类模型,然后用它来预测未标记数据的情绪?

Is it possible to train the sentiment classification model with the labeled data and then use it to predict sentiment on data that is not labeled?

我想使用机器学习(文本分类)方法进行情感分析。例如 nltk 朴素贝叶斯分类器。 但问题是我的少量数据被标记了。 (例如,100 篇文章被标记为正面或负面)和 500 篇文章未标记。 我在想我用标记数据训练分类器,然后尝试预测未标记数据的情绪。 可能吗? 我是机器学习的初学者,对它了解不多。

我正在使用 python 3.7。

提前谢谢你。

Is it possible to train the sentiment classification model with the labeled data and then use it to predict sentiment on data that is not labeled?

是的。这基本上就是监督学习的定义。

即您训练有标签的数据,这样您就可以将其投入生产,对没有标签的数据进行分类。

(任何关于监督学习的书都会有代码示例。)

我想知道你的问题是否真的是:我可以使用监督学习来制作模型,为另外 500 篇文章分配标签,然后对所有 600 篇文章进行进一步的机器学习吗?那么答案仍然是肯定的,但质量会介于这两个极端之间:

  • 为这 500 个分配随机标签。结果不佳。
  • 让领域专家为这 500 个标签分配正确的标签。效果不错。

您的模型可能介于这两个极端之间。知道它在哪里很有用,因此知道是否值得使用这些数据。您可以通过抽取样本(比如 25 条记录)并让领域专家对它们进行分配来对其进行估算。如果所有 25 个都匹配,则很有可能您的其他 475 个记录也被赋予了良好的标签。如果例如25 条记录中只有 10 条匹配,模型更接近频谱的随机端,使用其他 475 条记录可能是个坏主意。

(“10”、“25”等是任意示例;根据不同标签的数量以及您对结果的期望置信度进行选择。)