朴素贝叶斯准确度随着 alpha 值的增加而增加

naive bayes accuracy increasing as increasing in the alpha value

我使用朴素贝叶斯进行文本 class化,我有 100k 条记录,其中 88k 条是正 class 记录,12k 条是负 class 记录。我使用 countvectorizer 将句子转换为 unigrams 和 bigrams,并从 [0,10] 中获取 alpha 范围和 50 个值,然后绘制绘图。

在拉普拉斯相加平滑中,如果我不断增加 alpha 值,那么交叉验证数据集的准确度也会增加。我的问题是这种趋势是否符合预期?

如果您不断增加 alpha 值,那么朴素贝叶斯模型将偏向具有更多记录的 class,并且模型会变成一个愚蠢的模型(欠拟合),因此选择较小的 alpha 值是个好主意。

因为你有 88k 个 Positive Point 和 12K 个 negative point 这意味着你有不平衡的数据集。 您可以向平衡数据集添加更多负点,您可以克隆或复制您的负点,我们称之为上采样。在那之后,你的数据集是平衡的,现在你可以应用带有 alpha 的朴素贝叶斯,它会正常工作,现在你的模型不是愚蠢的模型,早些时候你的模型是愚蠢的,这就是为什么随着 alpha 的增加它会增加你的准确性。