Python 朴素贝叶斯分类器中的偏度和峰度

Python Skewness and Kurtosis in Naive Bayes classifier

我正在 Python 中创建一个朴素贝叶斯分类器,它将能够根据一天的一些天气数据猜测它是哪个月份。

目前使用均值和标准差对月份进行分类,但我认为添加偏度和峰度可能有助于提高准确性。

我目前正在使用 scipy.stats.norm.cdf 来计算机会,但我似乎无法在 Python 中找到任何考虑偏度和峰度的 cdf 函数。

我觉得我可能没有正确理解偏度和峰度。偏度和峰度对 cdf 函数有影响,因此我希望将它们作为参数给出。

我对偏度、峰度和 cdf 函数的理解有什么根本性的错误吗?如果没有,那么我在哪里可以找到 Python 中考虑了所有这些参数的 cdf 函数的实现?

您使用的正态分布 (scipy.stats.norm) 通常用于在朴素贝叶斯中对一维条件分布建模,它仅由两个参数明确定义 - meanstd。指定 skewness/kurtosis 没有意义,因为它们对于您的分布是恒定的(特别是峰度为 3)。

你想的可能是皮尔逊分布,用来拟合更多的矩(mean、std、skewness和kurtosis)。

http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.pearson3.html