句子级到文档级的情感分析。分析新闻

Sentence-level to document-level sentiment analysis. Analysing news

我需要使用 Stanford NLP 工具对有关特定主题的新闻文章进行情感分析。

此类工具仅允许基于句子的情感分析,而我想提取与我的主题相关的整篇文章的情感评价。

例如,如果我的主题是 Apple,我想知道一篇新闻文章对 Apple 的看法。

仅仅计算我文章中句子的平均值是不行的。例如,我可能有一篇文章说的是 "Apple is very good at this, and this and that. While Google products are very bad for these reasons"。这样一篇文章会根据句子的平均得分得出中性分类,而它实际上是一篇关于 Apple 的非常正面的文章。

另一方面,过滤我的句子以仅包含包含 Apple 一词的句子会错过 "Apple's product A is pretty good. However, it lacks the following crucial features: ..." 的文章。在这种情况下,如果我只使用包含单词 Apple 的句子,第二句的效果将丢失。

是否有解决此类问题的标准方法?斯坦福 NLP 是实现我目标的错误工具吗?

更新:你可能想看看 http://blog.getprismatic.com/deeper-content-analysis-with-aspects/

这是一个非常活跃的研究领域,因此很难找到现成的工具来执行此操作(至少 Stanford CoreNLP 中没有构建任何工具)。一些建议:研究基于方面的情绪分析。在这种情况下,Apple 将是 "aspect"(不是真的,但可以这样建模)。麻省大学的 Andrew McCallum 小组、Bing 刘在 UIC 的小组、康奈尔大学的 NLP 小组等都在研究这个问题。

如果你想快速修复,我建议从涉及 Apple 及其产品的句子中提取情绪;使用coref(查看Stanford CoreNLP中的dcoref annotator),这将增加句子的召回率并解决像"However, it lacks..".

这样的句子问题