情感分析训练集

Sentiment analysis training set

我正在使用 NLTK python 进行情绪分析,我的数据有大约 200,000 条评论。要使用朴素贝叶斯分类器,我需要有标记的训练集。由于我的数据没有标记,我手动创建了大约 100 条正面和负面评论。但我不认为这是做到这一点的方法。我听说我需要有 20% 的数据作为训练集来训练分类器并将其应用于其余 80% 的数据。

有没有更好的方法生成朴素贝叶斯分类器的训练集?感谢您的帮助,如果问题不清楚,请告诉我。

我们仅使用大约 100-200 个训练样本(取决于具体分类)就以相当高的准确度对数十万个段落进行了分类,取得了巨大成功。

我们确实手动过滤了随机选择的样本,以确保它们彼此不是很相似(因此代表表达概念的不同方式)。我们使用 RapidMiner 而不是 NLTK 进行分类,但我希望算法非常相似。

运行 您的分类器与您的 100 条评论,然后 运行 针对一组不在训练集中的 100 条随机评论。检查准确性,如果准确性不符合您的要求,请向训练集添加更多评论。