Doc2Vec 通用情感分析数据集

Data set for Doc2Vec general sentiment analysis

我正在尝试构建 doc2vec 模型,使用 gensim + sklearn 对短句进行情感分析,例如评论、推文、评论等

我下载了amazon product review data set, twitter sentiment analysis data set and imbd movie review data set

然后将它们分为 3 类,正面、负面和中性。

接下来,我在上述数据上对 gensim doc2vec 模型进行了 trinaed,以便获得分类神经网络的输入向量。

并使用sklearn LinearRegression模型对我的测试数据进行预测,上述三个数据集各占10%左右。

不幸的是,结果并不如我所料。那里的大多数教程似乎只关注一项特定任务,'classify amazon reviews only' 或 'twitter sentiments only',我找不到更通用的内容。

有人可以分享 his/her 对此的想法吗?

您的预期有多好,您取得的成绩如何?

如果情绪的指示符在这些不同的领域中有所不同,那么结合这三个数据集可能不会提高整体的情绪检测能力。 (也许,'positive' 推文在措辞上与产品评论或电影评论有很大不同。只有几到几十个单词的推文通常与数百个单词的评论有很大不同。)你是否分别尝试过确保组合有用?

您的表现是否与其他关于在大致相同的数据集上使用大致相同的管道 (Doc2Vec + LinearRegression) 的在线报告一致,还是完全不同?这将是一个线索,可以判断你是做错了什么,还是只是抱有过高的期望。

例如,与 gensim 捆绑在一起的 doc2vec-IMDB.ipynb 笔记本试图从原始 'Paragraph Vector' 论文中复制实验,对 IMDB 数据集进行情绪检测。 (我不确定这是否与您使用的数据集相同。)您的结果是否与该笔记本所达到的一般范围相同?

在没有看到您的代码以及您的语料库处理和参数选择的详细信息的情况下,可能会有各种各样的错误。网上很多例子都是废话选择。但也许你的期望刚刚落空。