考虑三个相互独立的分类器 A、B、C,它们具有相等的错误概率:

Consider three mutually independent classifiers, A, B, C, with equal error probabilities:

问题来了:

Consider three mutually independent classifiers, A, B, C, with equal error probabilities:

Pr(errA) = Pr(errB) = Pr(errC) = t

Let D be another classifier that takes the majority vote of A, B, and C.

• What is Pr(errD)?

• Plot Pr(errD) as a function of t.

• For what values of t, the performance of D is better than any of the other three classifiers?



我的问题是:

(1)我想不出D的错误概率,我以为是1减alpha(1-α),但我不确定。

(2) 如何绘制 t(Pr(errD))?我假设没有找到 Pr(errD) 然后我可以绘制它。

(3) 这里也是,我想不通。相比之下,我应该如何判断D的性能?

如果我理解得很好,你的问题可以用简单的术语来表述,而不需要任何集成学习。

鉴于 D 是 3 个分类器投票的结果,当且仅当至多一个估计器是正确的时,D 是错误的。

A,B,C是独立的,所以:

  • none正确的概率是 t^3

  • 一个正确而另外两个错误的概率是3(1-t)t^2(因子3是因为有三种方法可以实现)

所以 P(errD) = t^3 + 3(1-t)t^2 = -2t^3 + 3t^2

您应该能够毫不费力地将其绘制为区间 [0:1] 中 t 的函数。

你的第三个问题,只要求解P(errA) - P(errD) >0即可(也就是说D的出错概率比A小,性能好)。如果你解决这个问题,你应该发现条件是 t<0.5.

回到集成学习,请注意,您的估计器之间的独立性假设在实践中通常不会得到验证。