如何提高新闻标题情感分析的准确性?
How could I improve the accuracy of sentiment analysis of news headlines?
我正在使用 Vader and TextBlob 来分析新闻标题的情绪,结果好坏参半:许多我认为略微负面的标题被评为中性。这里有几个例子:
Who wants to live in an artificially intelligent future?
# Vader: {'compound': 0.4588, 'pos': 0.273, 'neu': 0.727, 'neg': 0.0}
# TextBlob: Sentiment(polarity=0.2840909090909091, subjectivity=0.40625)
The internet and social media provide huge opportunities for the coming generation, but there’s a dark side from which it must be protected.
# Vader: {'compound': 0.743, 'pos': 0.278, 'neu': 0.722, 'neg': 0.0}
# TextBlob: Sentiment(polarity=0.09444444444444448, subjectivity=0.45555555555555555)
For three months I’ve lived without tech and now realise we need to question its ever-encroaching invasion – before we end up in bed with a sex robot.
# Vader {'compound': 0.0, 'pos': 0.0, 'neu': 1.0, 'neg': 0.0}
# TextBlob Sentiment(polarity=0.0, subjectivity=0.0)
我认为第一句话可以用任何一种方式来解读,但后两个句子肯定有负面因素:"there’s a dark side" 和 "its ever-encroaching invasion",所以我很惊讶地看到 Vader 都给了两个负 0 和 TextBlob 给出 0 或以上的极性。
对于情感分析算法来说,这类文本是否从根本上难以理解,或者我可以考虑另一种方法吗?
我提到的库的吸引力在于我不必制作自己的分类数据集,但如果我可能会得到更好的结果,我可能会考虑它。
基本区别在于,大多数当前工具都使用单个词的情感指数。例如,在文本中的任何地方找到 "like" 或 "excellent" 将表示正面评价。您的示例更多地依赖于一些 "understanding" 的短语,需要最少的解析。这是一个更详细的过程,需要对语言语义有更深入的理解。
您 可以 攻击它的一种方法是用索引短语(作为单词插入)和单词填充词典。然后您预处理输入以将这些短语转换为您在词典中使用的任何指示。例如,用下划线连接这些短语 - "dark_side" 在您的词典中具有负索引。
我希望这能给你一个有用的方向推动。
我正在使用 Vader and TextBlob 来分析新闻标题的情绪,结果好坏参半:许多我认为略微负面的标题被评为中性。这里有几个例子:
Who wants to live in an artificially intelligent future?
# Vader: {'compound': 0.4588, 'pos': 0.273, 'neu': 0.727, 'neg': 0.0}
# TextBlob: Sentiment(polarity=0.2840909090909091, subjectivity=0.40625)
The internet and social media provide huge opportunities for the coming generation, but there’s a dark side from which it must be protected.
# Vader: {'compound': 0.743, 'pos': 0.278, 'neu': 0.722, 'neg': 0.0}
# TextBlob: Sentiment(polarity=0.09444444444444448, subjectivity=0.45555555555555555)
For three months I’ve lived without tech and now realise we need to question its ever-encroaching invasion – before we end up in bed with a sex robot.
# Vader {'compound': 0.0, 'pos': 0.0, 'neu': 1.0, 'neg': 0.0}
# TextBlob Sentiment(polarity=0.0, subjectivity=0.0)
我认为第一句话可以用任何一种方式来解读,但后两个句子肯定有负面因素:"there’s a dark side" 和 "its ever-encroaching invasion",所以我很惊讶地看到 Vader 都给了两个负 0 和 TextBlob 给出 0 或以上的极性。
对于情感分析算法来说,这类文本是否从根本上难以理解,或者我可以考虑另一种方法吗?
我提到的库的吸引力在于我不必制作自己的分类数据集,但如果我可能会得到更好的结果,我可能会考虑它。
基本区别在于,大多数当前工具都使用单个词的情感指数。例如,在文本中的任何地方找到 "like" 或 "excellent" 将表示正面评价。您的示例更多地依赖于一些 "understanding" 的短语,需要最少的解析。这是一个更详细的过程,需要对语言语义有更深入的理解。
您 可以 攻击它的一种方法是用索引短语(作为单词插入)和单词填充词典。然后您预处理输入以将这些短语转换为您在词典中使用的任何指示。例如,用下划线连接这些短语 - "dark_side" 在您的词典中具有负索引。
我希望这能给你一个有用的方向推动。