关于随机森林,OOB 和 Logloss 误差有什么区别?

With relation to Random Forests, what is the difference between OOB and Logloss error?

它们都是成本函数吗?就像在评估错误时,您会同时考虑两者还是它们真的是单独的措施?对 logloss 错误感到困惑,很难找到相关信息。

假设你已经在一些火车数据上训练了一些分类器,xtr, ytr,你已经获得了一些合适的分类器 m。现在对于一些 x, y,你采用分类器的结果 ŷ = ŷm(x)

  • log loss 是一个接受 yŷ 的函数,并输出分类器的好坏程度对数据做了。

  • OOB (out of bag) 只是意味着你 而不是 采取 xtr, ytr,你用来训练的数据集,作为x,y,你用来评估性能的数据集。相反,它意味着 x, yxte, yte,您在训练中遗漏的一些数据集(可能专门用于此目的)。

这两个概念是正交的,因此:

  • 有一个拟合分类器和一个OOB数据集,你可以使用或不使用对数损失。

  • 您可以在 OOB 数据集或原始训练数据集上测量对数损失(但在后一种情况下,您应该非常小心地解释结果 - 这是一个糟糕的估计器预测器的实际工作情况)。