咖啡回归背后的理论

Theory behind Regression in caffe

有人知道 Caffe 回归背后的理论吗?我知道我们有一个损失函数,但这适用于什么?

我的意思是,对于带损失层的 Softmax,我们有一个 Softmax 函数,我们应用交叉熵损失来确定我们的更新。我正在寻找的是我的欧几里德损失的 "Softmax function"。有小费吗?我看过Caffe层的解释,但那里只是说平方误差之和用作损失函数。

这与Caffe无关,这是一个比较普遍的回归问题。

损失函数,通常采用 L(prediction, truth) 的形式,是一个分配 标量 (数字)的函数,您试图将其最小化以解决任务(它正在做出重新组合真实值的预测。

一般来说,在回归中,您根据某个函数 f(x|theta) 进行预测,其中 theta 是函数的一组参数,例如,这些可能是一组神经网络的权重,或线性模型。因此你的优化问题是

minimise_theta    L(f(X|theta), truth)

例如,对于 L2 损失(欧几里得距离),你得到

minimise_theta    SUM_i || f(x_i|theta) - truth_i ||^2
                           ------------   -------
                                |            |
                                v            V
                           prediction      true
                           for point      value for
                           x_i            point x_i

您寻找最佳 theta 的方式取决于所使用的优化器,它可能会区分此函数以寻找最小值,您可能会使用一些元优化器(如遗传方法等)。

特别是对于Caffe和神经网络,f(x_i|theta)是你的神经网络,它可以由多个模块(层,节点)组成,根据theta和[=进行不同的操作26=]。特别是softmax没有任何参数,因此它是不可训练的,它只是规范化你的预测,但是你通常在softmax下面有一些可训练的模块(比如线性层),这些模块是根据上面的优化问题调整的。您搜索这样的参数,使您在训练集上的损失最小化。