将具有 ReLU 的神经网络拟合到多项式函数
Fitting a neural network with ReLUs to polynomial functions
出于好奇,我试图将具有修正线性单元的神经网络拟合到多项式函数中。
例如,我想看看神经网络为函数 f(x) = x^2 + x
提出近似值有多容易(或困难)。下面的代码应该可以搞定,但是好像学不到什么。当我运行
using Base.Iterators: repeated
ENV["JULIA_CUDA_SILENT"] = true
using Flux
using Flux: throttle
using Random
f(x) = x^2 + x
x_train = shuffle(1:1000)
y_train = f.(x_train)
x_train = hcat(x_train...)
m = Chain(
Dense(1, 45, relu),
Dense(45, 45, relu),
Dense(45, 1),
softmax
)
function loss(x, y)
Flux.mse(m(x), y)
end
evalcb = () -> @show(loss(x_train, y_train))
opt = ADAM()
@show loss(x_train, y_train)
dataset = repeated((x_train, y_train), 50)
Flux.train!(loss, params(m), dataset, opt, cb = throttle(evalcb, 10))
println("Training finished")
@show m([20])
它returns
loss(x_train, y_train) = 2.0100101f14
loss(x_train, y_train) = 2.0100101f14
loss(x_train, y_train) = 2.0100101f14
Training finished
m([20]) = Float32[1.0]
这里有人看到我如何使网络适合f(x) = x^2 + x
吗?
您的试用似乎有一些问题,主要与您如何使用优化器和处理输入有关——Julia 或 Flux 没有问题。提供的解决方案确实可以学习,但绝不是最优的。
- 在回归问题上激活 softmax 输出是没有意义的。 Softmax 用于分类问题,其中模型的输出代表概率,因此应该在区间 (0,1) 上。很明显,您的多项式的值超出了这个区间。在像这样的回归问题中通常有线性输出激活。这意味着在 Flux 中不应在输出层上定义输出激活。
- 数据的形状很重要。
train!
计算 loss(d...)
的梯度,其中 d
是 data
中的一个批次。在您的情况下,一个小批量包含 1000 个样本,并且同一批次重复 50 次。神经网络通常使用较小的批次大小,但使用较大的样本集进行训练。在我提供的代码中,所有批次都包含不同的数据。
- 对于训练神经网络,一般来说,建议对输入进行归一化。您的输入值介于 1 到 1000 之间。我的示例应用了一个简单的线性变换来获得正确范围内的输入数据。
- 标准化也可以应用于输出。如果输出很大,这可能会导致(太大)梯度和权重更新。另一种方法是大大降低学习率。
using Flux
using Flux: @epochs
using Random
normalize(x) = x/1000
function generate_data(n)
f(x) = x^2 + x
xs = reduce(hcat, rand(n)*1000)
ys = f.(xs)
(normalize(xs), normalize(ys))
end
batch_size = 32
num_batches = 10000
data_train = Iterators.repeated(generate_data(batch_size), num_batches)
data_test = generate_data(100)
model = Chain(Dense(1,40, relu), Dense(40,40, relu), Dense(40, 1))
loss(x,y) = Flux.mse(model(x), y)
opt = ADAM()
ps = Flux.params(model)
Flux.train!(loss, ps, data_train, opt , cb = () -> @show loss(data_test...))
出于好奇,我试图将具有修正线性单元的神经网络拟合到多项式函数中。
例如,我想看看神经网络为函数 f(x) = x^2 + x
提出近似值有多容易(或困难)。下面的代码应该可以搞定,但是好像学不到什么。当我运行
using Base.Iterators: repeated
ENV["JULIA_CUDA_SILENT"] = true
using Flux
using Flux: throttle
using Random
f(x) = x^2 + x
x_train = shuffle(1:1000)
y_train = f.(x_train)
x_train = hcat(x_train...)
m = Chain(
Dense(1, 45, relu),
Dense(45, 45, relu),
Dense(45, 1),
softmax
)
function loss(x, y)
Flux.mse(m(x), y)
end
evalcb = () -> @show(loss(x_train, y_train))
opt = ADAM()
@show loss(x_train, y_train)
dataset = repeated((x_train, y_train), 50)
Flux.train!(loss, params(m), dataset, opt, cb = throttle(evalcb, 10))
println("Training finished")
@show m([20])
它returns
loss(x_train, y_train) = 2.0100101f14
loss(x_train, y_train) = 2.0100101f14
loss(x_train, y_train) = 2.0100101f14
Training finished
m([20]) = Float32[1.0]
这里有人看到我如何使网络适合f(x) = x^2 + x
吗?
您的试用似乎有一些问题,主要与您如何使用优化器和处理输入有关——Julia 或 Flux 没有问题。提供的解决方案确实可以学习,但绝不是最优的。
- 在回归问题上激活 softmax 输出是没有意义的。 Softmax 用于分类问题,其中模型的输出代表概率,因此应该在区间 (0,1) 上。很明显,您的多项式的值超出了这个区间。在像这样的回归问题中通常有线性输出激活。这意味着在 Flux 中不应在输出层上定义输出激活。
- 数据的形状很重要。
train!
计算loss(d...)
的梯度,其中d
是data
中的一个批次。在您的情况下,一个小批量包含 1000 个样本,并且同一批次重复 50 次。神经网络通常使用较小的批次大小,但使用较大的样本集进行训练。在我提供的代码中,所有批次都包含不同的数据。 - 对于训练神经网络,一般来说,建议对输入进行归一化。您的输入值介于 1 到 1000 之间。我的示例应用了一个简单的线性变换来获得正确范围内的输入数据。
- 标准化也可以应用于输出。如果输出很大,这可能会导致(太大)梯度和权重更新。另一种方法是大大降低学习率。
using Flux
using Flux: @epochs
using Random
normalize(x) = x/1000
function generate_data(n)
f(x) = x^2 + x
xs = reduce(hcat, rand(n)*1000)
ys = f.(xs)
(normalize(xs), normalize(ys))
end
batch_size = 32
num_batches = 10000
data_train = Iterators.repeated(generate_data(batch_size), num_batches)
data_test = generate_data(100)
model = Chain(Dense(1,40, relu), Dense(40,40, relu), Dense(40, 1))
loss(x,y) = Flux.mse(model(x), y)
opt = ADAM()
ps = Flux.params(model)
Flux.train!(loss, ps, data_train, opt , cb = () -> @show loss(data_test...))