情感分析——注释数据集是什么意思?

Sentiment Analysis - What does annotating dataset mean?

我目前正在进行最后一年的研究项目,这是一个分析在线发现的旅游评论的应用程序,并通过进行方面级别的情感分析给出特定旅游景点的情感分数。

我有一个来自著名旅游网站的新数据集,该网站不允许将其 API 用于 research/academic 目的。 (无赖)

我的主管说我可能需要在将此数据集用于上述目的之前对其进行注释。我对这种情况下的数据注释意味着什么感到困惑。有人可以解释一下注释数据集时到底发生了什么,以及它如何帮助完成情绪分析吗?

有人告诉我,我可能需要 two/three 人工注释者并对数据进行注释以减少偏见。我的时间很紧,我想知道是否有任何工具可以帮我完成它?如果是这样,使用此类工具对人工注释者有何影响?我也想对您推荐的此类工具提出建议。

非常感谢对我的问题进行详细的解释,因为我正因为这个原因而坚持我的项目进展到下一步。

提前致谢。

首先,机器学习算法(例如,情感分析算法)正在学习执行人类当前执行的任务,方法是收集人类执行任务的许多示例,然后模仿它们。当您的主管谈论 "annotation," 时,他们谈论的是收集人类执行情感注释任务的这些示例:为句子注释情感。也就是说,收集成对的句子及其由人类判断的情绪。没有这个,程序就没有什么可以学习的,你只能希望程序能从无到有地给你一些东西——它永远不会。

也就是说,有一些工具可以收集此类数据,或者至少可以提供帮助。 Amazon Mechanical Turk 和其他众包平台是此类数据收集的良好资源。您还可以查看类似以下内容的内容:http://www.crowdflower.com/type-sentiment-analysis.