关于随机森林,OOB 和 Logloss 误差有什么区别?
With relation to Random Forests, what is the difference between OOB and Logloss error?
它们都是成本函数吗?就像在评估错误时,您会同时考虑两者还是它们真的是单独的措施?对 logloss 错误感到困惑,很难找到相关信息。
假设你已经在一些火车数据上训练了一些分类器,xtr, ytr,你已经获得了一些合适的分类器 m。现在对于一些 x, y,你采用分类器的结果 ŷ = ŷm(x)。
log loss 是一个接受 y 和 ŷ 的函数,并输出分类器的好坏程度对数据做了。
OOB (out of bag) 只是意味着你 而不是 采取 xtr, ytr,你用来训练的数据集,作为x,y,你用来评估性能的数据集。相反,它意味着 x, y 是 xte, yte,您在训练中遗漏的一些数据集(可能专门用于此目的)。
这两个概念是正交的,因此:
有一个拟合分类器和一个OOB数据集,你可以使用或不使用对数损失。
您可以在 OOB 数据集或原始训练数据集上测量对数损失(但在后一种情况下,您应该非常小心地解释结果 - 这是一个糟糕的估计器预测器的实际工作情况)。
它们都是成本函数吗?就像在评估错误时,您会同时考虑两者还是它们真的是单独的措施?对 logloss 错误感到困惑,很难找到相关信息。
假设你已经在一些火车数据上训练了一些分类器,xtr, ytr,你已经获得了一些合适的分类器 m。现在对于一些 x, y,你采用分类器的结果 ŷ = ŷm(x)。
log loss 是一个接受 y 和 ŷ 的函数,并输出分类器的好坏程度对数据做了。
OOB (out of bag) 只是意味着你 而不是 采取 xtr, ytr,你用来训练的数据集,作为x,y,你用来评估性能的数据集。相反,它意味着 x, y 是 xte, yte,您在训练中遗漏的一些数据集(可能专门用于此目的)。
这两个概念是正交的,因此:
有一个拟合分类器和一个OOB数据集,你可以使用或不使用对数损失。
您可以在 OOB 数据集或原始训练数据集上测量对数损失(但在后一种情况下,您应该非常小心地解释结果 - 这是一个糟糕的估计器预测器的实际工作情况)。