二元对数损失是否排除了基于 y 的方程的一部分?
Does binary log loss exclude one part of equation based on y?
假设对数损失方程为:
logLoss=−(1/N)*∑_{i=1}^N (yi(log(pi))+(1−yi)log(1−pi))
其中 N
是样本数,yi...yiN
是因变量的实际值,pi...piN
是逻辑回归的预测可能性
我是怎么看的:
if yi = 0
则第一部分 yi(logpi) = 0
或者,如果 yi = 1
那么第二部分 (1−yi)log(1−pi) = 0
所以现在,根据 y
的值,等式的一部分被排除。我理解正确吗?
我的最终目标是了解如何解释对数损失的结果。
是的,您走在正确的轨道上。请记住 p_i=P(y_i=1)
,基本上这个想法是损失函数需要以这样一种方式定义,即它惩罚预测与实际标签不匹配的元组(例如,当 y_i=1
但 p_i
低,由 yi(logpi)
部分处理,或者当 y_i=0
但 p_i
高,由 (1-yi)log(1-pi)
部分处理)和同时,它不应该过多地惩罚预测与实际标签匹配的元组(例如,当 y_i=1
和 p_i
为高时或 y_i=0
和 p_i
为高时低的)。
logistic regression(cross entropy
)的损失函数正好解决了上面想要的属性损失函数,如下图可以看出
假设对数损失方程为:
logLoss=−(1/N)*∑_{i=1}^N (yi(log(pi))+(1−yi)log(1−pi))
其中 N
是样本数,yi...yiN
是因变量的实际值,pi...piN
是逻辑回归的预测可能性
我是怎么看的:
if yi = 0
则第一部分 yi(logpi) = 0
或者,如果 yi = 1
那么第二部分 (1−yi)log(1−pi) = 0
所以现在,根据 y
的值,等式的一部分被排除。我理解正确吗?
我的最终目标是了解如何解释对数损失的结果。
是的,您走在正确的轨道上。请记住 p_i=P(y_i=1)
,基本上这个想法是损失函数需要以这样一种方式定义,即它惩罚预测与实际标签不匹配的元组(例如,当 y_i=1
但 p_i
低,由 yi(logpi)
部分处理,或者当 y_i=0
但 p_i
高,由 (1-yi)log(1-pi)
部分处理)和同时,它不应该过多地惩罚预测与实际标签匹配的元组(例如,当 y_i=1
和 p_i
为高时或 y_i=0
和 p_i
为高时低的)。
logistic regression(cross entropy
)的损失函数正好解决了上面想要的属性损失函数,如下图可以看出