CoreNLP 训练模型问题

CoreNLP Training Model Issue

我正在使用 Stanford CoreNLP 对我收集的一些推文进行情绪分析。我用一句话创建了一个模拟训练模型,评分如下: (0 (2 熊市)(2 (2 石油) (2 市场))).

我的评分范围为 0 到 4,0 表示非常消极,2 表示中立,4 表示非常积极。 我正在测试以下两条推文:

熊市

熊市

它给第一个句子打了0分,这是正确的,第二个句子打了2分,这是不正确的,因为这句话也应该是否定的。这两句话的唯一区别是第二句中的s in markets。

我的问题是:是否有任何方法可以解决任何单词的任何变体导致两个句子得分不同的事实?

我认为简短的回答是 "no" -- 措辞上的差异总是有可能改变句子的情感。您可以尝试通过重新训练新数据来缓解问题。

真的,如果您 运行 除了电影评论之外的任何东西,您应该期望模型的性能至少会降低一点,偶尔会降低很多。如果你有训练数据,值得重新训练。

实际上,您可以通过用词根或 "stem" 形式替换每个单词的语言学方法来解决这个问题。你过滤每个句子并减少每个单词,删除复数、动词结尾、形容词变格等。然后你训练。

您以相同的方式过滤您的输入。您仍然需要对您的词典做出一些决定,例如是否将 "best" 减少为 "good"。