神经网络中激活函数的作用 - 初学者
What does an activation function do in Neural networks - for a beginner
我理解具有多层、反向传播等的概念。我什至理解激活函数会根据所使用的激活函数将输出压缩到一定范围内。但为什么我们甚至需要这个?如果我们在没有激活函数的情况下继续使用实际结果会怎样?
请帮助我理解,但用纯英语 - 不 graphs/formulas 请 - 我想了解它背后的概念
使用激活函数的原因很少,最常见的原因是当输出本质上需要在一定范围内时。例如如果输出是一个概率,它只在 [0, 1] 范围内有效。
如果您的激活函数只是 a(z)=z(线性神经元),则激活只是加权输入(加上偏差)。在这种情况下,每一层的激活都是前一层激活的线性函数。你可以很容易地说服自己,许多层(即深度网络)的综合效果仍然是一个线性函数。这意味着你可以只用一个输入层和一个输出层得到完全相同的结果,没有任何隐藏的神经元。换句话说,通过添加隐藏层,您的网络不会增加任何额外的复杂性,因此 "deep" 神经网络没有任何优势。
我理解具有多层、反向传播等的概念。我什至理解激活函数会根据所使用的激活函数将输出压缩到一定范围内。但为什么我们甚至需要这个?如果我们在没有激活函数的情况下继续使用实际结果会怎样?
请帮助我理解,但用纯英语 - 不 graphs/formulas 请 - 我想了解它背后的概念
使用激活函数的原因很少,最常见的原因是当输出本质上需要在一定范围内时。例如如果输出是一个概率,它只在 [0, 1] 范围内有效。
如果您的激活函数只是 a(z)=z(线性神经元),则激活只是加权输入(加上偏差)。在这种情况下,每一层的激活都是前一层激活的线性函数。你可以很容易地说服自己,许多层(即深度网络)的综合效果仍然是一个线性函数。这意味着你可以只用一个输入层和一个输出层得到完全相同的结果,没有任何隐藏的神经元。换句话说,通过添加隐藏层,您的网络不会增加任何额外的复杂性,因此 "deep" 神经网络没有任何优势。