为什么朴素贝叶斯需要平衡的训练数据?

why naive bayes requires balanced training data?

我使用朴素贝叶斯算法创建了一个单词情感应用程序。

这个分类训练数据有两类标准,分别是正训练数据和负训练数据。我对每一个分组的训练数据都有一个独特的说法。所以,我有每个数据标准的所有唯一词。然后,我计算每个唯一单词出现的概率值。

问题是当我使用不均匀的训练数据时。例如:我使用了 60% 的负训练数据和 40% 的正训练数据。那么测试数据的结果会更容易出现阴性结果,反之亦然。

除了我必须使用平衡数据,我应该怎么做才能解决这个问题?还有我应该添加的其他方法吗?

朴素贝叶斯需要均衡的训练数据,因为每个参数的似然受先验值(优先值)的影响。

这个先验值取自每个数据的类。 也许我解释这种东西的时候你已经明白了。