WEKA j48算法中的useLaplace参数有什么作用?
What does the useLaplace parameter do in the WEKA j48 algorithm?
我正在使用 j48 树算法挖掘数据集。
我一直在努力理解 useLaplace
参数的作用。我唯一要遵循的是:
Whether counts at leaves are smoothed based on LapLace
这只是WEKA提供的文档。不过我对此有一些疑问:
- 叶子上的计数是多少?
- 什么是平滑?
- 什么是 LapLace?它是用于平滑的算法吗?
我在网上找到的所有内容都没有真正详细说明这个参数的实际作用,而只是解释它 "turns on Laplace smoothing."
Provost 和 Domingos 发现叶概率的频率平滑
估计,如拉普拉斯校正,显着提高了决策树的性能。
根据我的阅读,叶子计数(a.k.a 我前一句话中的叶子概率)用于确定概率估计,其可以定义为:
P( 是 class A | 对于属性 x) = TruePositive/(TruePositive + FalsePositive)
平滑包括减少树中结果中的噪声和误差,以产生更准确的概率估计。
拉普拉斯是频率平滑校正公式:
PLaplace(为 class A | 对于属性 x)= (T P + 1)/(T P + F P + C)
其中 C 是数据集中类的数量。
我正在使用 j48 树算法挖掘数据集。
我一直在努力理解 useLaplace
参数的作用。我唯一要遵循的是:
Whether counts at leaves are smoothed based on LapLace
这只是WEKA提供的文档。不过我对此有一些疑问:
- 叶子上的计数是多少?
- 什么是平滑?
- 什么是 LapLace?它是用于平滑的算法吗?
我在网上找到的所有内容都没有真正详细说明这个参数的实际作用,而只是解释它 "turns on Laplace smoothing."
Provost 和 Domingos 发现叶概率的频率平滑 估计,如拉普拉斯校正,显着提高了决策树的性能。 根据我的阅读,叶子计数(a.k.a 我前一句话中的叶子概率)用于确定概率估计,其可以定义为:
P( 是 class A | 对于属性 x) = TruePositive/(TruePositive + FalsePositive)
平滑包括减少树中结果中的噪声和误差,以产生更准确的概率估计。
拉普拉斯是频率平滑校正公式:
PLaplace(为 class A | 对于属性 x)= (T P + 1)/(T P + F P + C)
其中 C 是数据集中类的数量。