我可以使用 VaderSentiment 来计算英语以外语言的极性和主观性吗?

can i use VaderSentiment to calculate polarity and subjectivity on language other than English?

我正在尝试创建一个 nlp 项目来计算非英语文本的极性和主观性,因此我可以使用 2 个工具:Vader - Textblob .

经过大量研究后,我发现 Vader 对于社交媒体而言更加高效和准确。

我的问题是:我可以向 vader 添加语言以计算 socres 吗? 或者他们是像多语言一样的 vader 包?

对于项目,我从 csv 文件读取并将其导入数据框 pandas,而不是预处理和清理文本,然后分析它以提取情绪。

我将不胜感激。

根据documentation,维德使用两种资源:

  1. 带有情感评级的代币字典
  2. 一组定义单词之间关系的句法规则

虽然您可以为其他语言创建自己的资源,但作者声明

Manually creating (much less, validating) a comprehensive sentiment lexicon is a labor intensive and sometimes error prone process

所以虽然可能,但并不容易。 Vader 附带的词典文件包含将近 8000 个条目。我不知道生成这些有多么容易:大概是在快速实现广泛覆盖和结果准确性之间进行权衡。或许你可以先去覆盖,然后通过相应地修改条目来逐步提高准确性。

句法规则(粗看)主要是描述副词,是增减情绪。同样,这是必须调整的内容,因为它在源文件中针对英语进行了硬编码。这取决于您的目标语言在语法上与英语的差异程度,该任务的难易程度。