对大文件中的负面词和正面词进行分类?

Classifying negative and positive words in large files?

我正在尝试在一个非常大的文件中获取正数和负数。我只需要一种原始方法(不需要很长时间)。我已经尝试过 sentiwordnet,但一直收到 IndexError: list index out of range,我认为这是因为 wordnet 词典中没有列出这些词。文字包含大量错别字和'non-words'.

如果有人能给点建议,我将不胜感激!

这完全取决于你的数据是什么样的,以及你的任务的最终objective是什么。您需要对您的项目进行更详细的描述,但一般来说,您有以下选择: - 制作你自己的情绪分析词典:我真的怀疑这是你想要做的,因为它需要大量的时间和精力,但如果你的数据足够简单,它是可行的。 - 清理你的数据:如果你的标记不在 senti-wordnet 中,因为有太多的噪音和拼写错误的单词,那么在通过 wordnet 传递它们之前尝试更正它们,它至少会限制你得到的错误数量。 - 使用 senti-wordnet 替代方案:同意,没有那么多好的,但如果你使用 python,你总是可以尝试 sentiment_classifier or nltk's sentiment(从你的错误看起来你是). - 只分类你能分类的:这是我推荐的。如果这个词不在 senti-wordnet 中,那么继续下一个。只需捕获错误 (try: ... except IndexError: pass) 并尝试通过计算您实际捕获的情感词来推断数据的一般情感是什么。

PS:我们需要查看您的代码才能确定,但​​我认为还有另一个原因导致您收到 IndexError。如果这个词不在 senti-wordnet 中,你会得到一个 KeyError,但这也取决于你如何编码你的函数。

祝你好运,希望对你有所帮助。