处理关系中不同主题的情感分析(分数)分散的正确方法是什么
What is the proper way to deal with (score) dispersion in sentiment analysis on different topics in relation
我正在分析社交网络上的情绪。基于关系中的不同主题作为输入。我们如何处理个别主题分数的分散?
例如:我们正在尝试对包含不同关键字的事件的主题进行情绪评分,假设主题是创新周,具有以下主题(关键字或同义词):
Innovation week = {"innovation week", "data solution", "emerging technologies", "august 30"...}.
如果分数的标准差这么大怎么办。
我们是否质疑:
情感分析算法本身?
我们输入的关键字?
或者我们只接受结果?因为它们在构成主题的不同粒度级别上代表人们的不同观点?最后的目的是对一个主题有个大概的了解。
我认为这个问题很简单,尽管这是社交网络中任何情感分析研究的关注点。
简短的回答是算法和输入关键字,因为它们相互依赖。
如果输入正确,任何算法中的色散都会增加,如果算法错误,任何输入都会发生同样的情况。
通常在这种情况下,您应该修改算法,因为在大多数情况下都是如此。
您还可以阅读此内容以更好地理解它:
http://www.cs.cornell.edu/home/llee/omsa/omsa-published.pdf
如果您不确定自己的算法,可以使用 NLTK Vader Sentimenter 检查结果。但也可能是答案如此不同,以至于标准偏差分数如此之大。
你有测试数据来测试你的算法吗?如果没有,您无论如何都应该让它们来衡量算法的标准测量值。
我正在分析社交网络上的情绪。基于关系中的不同主题作为输入。我们如何处理个别主题分数的分散?
例如:我们正在尝试对包含不同关键字的事件的主题进行情绪评分,假设主题是创新周,具有以下主题(关键字或同义词):
Innovation week = {"innovation week", "data solution", "emerging technologies", "august 30"...}.
如果分数的标准差这么大怎么办。 我们是否质疑:
情感分析算法本身?
我们输入的关键字?
或者我们只接受结果?因为它们在构成主题的不同粒度级别上代表人们的不同观点?最后的目的是对一个主题有个大概的了解。
我认为这个问题很简单,尽管这是社交网络中任何情感分析研究的关注点。
简短的回答是算法和输入关键字,因为它们相互依赖。 如果输入正确,任何算法中的色散都会增加,如果算法错误,任何输入都会发生同样的情况。
通常在这种情况下,您应该修改算法,因为在大多数情况下都是如此。
您还可以阅读此内容以更好地理解它: http://www.cs.cornell.edu/home/llee/omsa/omsa-published.pdf
如果您不确定自己的算法,可以使用 NLTK Vader Sentimenter 检查结果。但也可能是答案如此不同,以至于标准偏差分数如此之大。
你有测试数据来测试你的算法吗?如果没有,您无论如何都应该让它们来衡量算法的标准测量值。