咖啡回归背后的理论

Question

有人知道 Caffe 回归背后的理论吗？我知道我们有一个损失函数，但这适用于什么？

我的意思是，对于带损失层的 Softmax，我们有一个 Softmax 函数，我们应用交叉熵损失来确定我们的更新。我正在寻找的是我的欧几里德损失的 "Softmax function"。有小费吗？我看过Caffe层的解释，但那里只是说平方误差之和用作损失函数。

Answer 1

这与Caffe无关，这是一个比较普遍的回归问题。

损失函数，通常采用 L(prediction, truth) 的形式，是一个分配标量（数字）的函数，您试图将其最小化以解决任务（它正在做出重新组合真实值的预测。

一般来说，在回归中，您根据某个函数 f(x|theta) 进行预测，其中 theta 是函数的一组参数，例如，这些可能是一组神经网络的权重，或线性模型。因此你的优化问题是

minimise_theta    L(f(X|theta), truth)

例如，对于 L2 损失（欧几里得距离），你得到

minimise_theta    SUM_i || f(x_i|theta) - truth_i ||^2
                           ------------   -------
                                |            |
                                v            V
                           prediction      true
                           for point      value for
                           x_i            point x_i

您寻找最佳 theta 的方式取决于所使用的优化器，它可能会区分此函数以寻找最小值，您可能会使用一些元优化器（如遗传方法等）。

特别是对于Caffe和神经网络，f(x_i|theta)是你的神经网络，它可以由多个模块（层，节点）组成，根据theta和[=进行不同的操作26=]。特别是softmax没有任何参数，因此它是不可训练的，它只是规范化你的预测，但是你通常在softmax下面有一些可训练的模块（比如线性层），这些模块是根据上面的优化问题调整的。您搜索这样的参数，使您在训练集上的损失最小化。

咖啡回归背后的理论

Theory behind Regression in caffe

math

regression

machine-learning

caffe