对大文件中的负面词和正面词进行分类？

Classifying negative and positive words in large files?

我正在尝试在一个非常大的文件中获取正数和负数。我只需要一种原始方法（不需要很长时间）。我已经尝试过 sentiwordnet，但一直收到 IndexError: list index out of range，我认为这是因为 wordnet 词典中没有列出这些词。文字包含大量错别字和'non-words'.

如果有人能给点建议，我将不胜感激！

这完全取决于你的数据是什么样的，以及你的任务的最终objective是什么。您需要对您的项目进行更详细的描述，但一般来说，您有以下选择： - 制作你自己的情绪分析词典：我真的怀疑这是你想要做的，因为它需要大量的时间和精力，但如果你的数据足够简单，它是可行的。 - 清理你的数据：如果你的标记不在 senti-wordnet 中，因为有太多的噪音和拼写错误的单词，那么在通过 wordnet 传递它们之前尝试更正它们，它至少会限制你得到的错误数量。 - 使用 senti-wordnet 替代方案：同意，没有那么多好的，但如果你使用 python，你总是可以尝试 sentiment_classifier or nltk's sentiment（从你的错误看起来你是). - 只分类你能分类的：这是我推荐的。如果这个词不在 senti-wordnet 中，那么继续下一个。只需捕获错误 (try: ... except IndexError: pass) 并尝试通过计算您实际捕获的情感词来推断数据的一般情感是什么。

PS：我们需要查看您的代码才能确定，但我认为还有另一个原因导致您收到 IndexError。如果这个词不在 senti-wordnet 中，你会得到一个 KeyError，但这也取决于你如何编码你的函数。

祝你好运，希望对你有所帮助。

对大文件中的负面词和正面词进行分类？

Classifying negative and positive words in large files?

nlp

nltk

wordnet

sentiment-analysis

senti-wordnet