处理关系中不同主题的情感分析（分数）分散的正确方法是什么

What is the proper way to deal with (score) dispersion in sentiment analysis on different topics in relation

sentiment-analysis

我正在分析社交网络上的情绪。基于关系中的不同主题作为输入。我们如何处理个别主题分数的分散？

例如：我们正在尝试对包含不同关键字的事件的主题进行情绪评分，假设主题是创新周，具有以下主题（关键字或同义词）：

Innovation week = {"innovation week", "data solution", "emerging technologies", "august 30"...}.

如果分数的标准差这么大怎么办。我们是否质疑：

情感分析算法本身？

我们输入的关键字?

或者我们只接受结果？因为它们在构成主题的不同粒度级别上代表人们的不同观点？最后的目的是对一个主题有个大概的了解。

我认为这个问题很简单，尽管这是社交网络中任何情感分析研究的关注点。

简短的回答是算法和输入关键字，因为它们相互依赖。如果输入正确，任何算法中的色散都会增加，如果算法错误，任何输入都会发生同样的情况。

通常在这种情况下，您应该修改算法，因为在大多数情况下都是如此。

您还可以阅读此内容以更好地理解它： http://www.cs.cornell.edu/home/llee/omsa/omsa-published.pdf

如果您不确定自己的算法，可以使用 NLTK Vader Sentimenter 检查结果。但也可能是答案如此不同，以至于标准偏差分数如此之大。

你有测试数据来测试你的算法吗？如果没有，您无论如何都应该让它们来衡量算法的标准测量值。

Standard Measurements

处理关系中不同主题的情感分析（分数）分散的正确方法是什么

What is the proper way to deal with (score) dispersion in sentiment analysis on different topics in relation

sentiment-analysis