使用分类和聚类算法的情感分析:哪个更好?

Sentiment Analysis using classification and clustering algorithms: Which is better?

我正在尝试使用 Python 对歌曲歌词进行情感分析。 在研究了很多简单的 classification 问题后,有了已知的标签(例如 Email classification Spam/Not Spam),我认为歌词情感分析在于分类领域。 在实际编码时,我发现我必须计算每首歌歌词的情绪,并且可能会在原始数据集中添加一列,将其标记为正面或负面,或者使用实际的情绪分数。

这不能使用聚类方法来完成吗?由于我们首先不知道每首歌曲的 class(积极情绪/消极情绪),算法将使用情绪分析对数据进行聚类。

您正在考虑没有监督的聚类,即无监督聚类,这可能会导致准确度较低的结果,因为您实际上不知道将正负分开的分数阈值是多少 classes.So 首先尝试找到阈值将成为您的参数,它将您的 classes.Use 监督学习分开以找到阈值

聚类通常不会产生情绪。

它更有可能产生例如一组说唱和一组非说唱。或者一个是偶数长度的歌词,一个是奇数长度的歌词。

数据比情绪更重要。那么为什么聚类会产生情感聚类?

如果您想要特定的标签(积极情绪、消极情绪),那么您需要提供训练数据并使用监督方法。