无法在 Keras 中复制 matconvnet CNN 架构
Can't replicate a matconvnet CNN architecture in Keras
我在 matconvnet 中有以下卷积神经网络架构,我用它来训练我自己的数据:
function net = cnn_mnist_init(varargin)
% CNN_MNIST_LENET Initialize a CNN similar for MNIST
opts.batchNormalization = false ;
opts.networkType = 'simplenn' ;
opts = vl_argparse(opts, varargin) ;
f= 0.0125 ;
net.layers = {} ;
net.layers{end+1} = struct('name','conv1',...
'type', 'conv', ...
'weights', {{f*randn(3,3,1,64, 'single'), zeros(1, 64, 'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','pool1',...
'type', 'pool', ...
'method', 'max', ...
'pool', [3 3], ...
'stride', 1, ...
'pad', 0);
net.layers{end+1} = struct('name','conv2',...
'type', 'conv', ...
'weights', {{f*randn(5,5,64,128, 'single'),zeros(1,128,'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','pool2',...
'type', 'pool', ...
'method', 'max', ...
'pool', [2 2], ...
'stride', 2, ...
'pad', 0) ;
net.layers{end+1} = struct('name','conv3',...
'type', 'conv', ...
'weights', {{f*randn(3,3,128,256, 'single'),zeros(1,256,'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','pool3',...
'type', 'pool', ...
'method', 'max', ...
'pool', [3 3], ...
'stride', 1, ...
'pad', 0) ;
net.layers{end+1} = struct('name','conv4',...
'type', 'conv', ...
'weights', {{f*randn(5,5,256,512, 'single'),zeros(1,512,'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','pool4',...
'type', 'pool', ...
'method', 'max', ...
'pool', [2 2], ...
'stride', 1, ...
'pad', 0) ;
net.layers{end+1} = struct('name','ip1',...
'type', 'conv', ...
'weights', {{f*randn(1,1,256,256, 'single'), zeros(1,256,'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','relu',...
'type', 'relu');
net.layers{end+1} = struct('name','classifier',...
'type', 'conv', ...
'weights', {{f*randn(1,1,256,2, 'single'), zeros(1,2,'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','loss',...
'type', 'softmaxloss') ;
% optionally switch to batch normalization
if opts.batchNormalization
net = insertBnorm(net, 1) ;
net = insertBnorm(net, 4) ;
net = insertBnorm(net, 7) ;
net = insertBnorm(net, 10) ;
net = insertBnorm(net, 13) ;
end
% Meta parameters
net.meta.inputSize = [28 28 1] ;
net.meta.trainOpts.learningRate = [0.01*ones(1,10) 0.001*ones(1,10) 0.0001*ones(1,10)];
disp(net.meta.trainOpts.learningRate);
pause;
net.meta.trainOpts.numEpochs = length(net.meta.trainOpts.learningRate) ;
net.meta.trainOpts.batchSize = 256 ;
net.meta.trainOpts.momentum = 0.9 ;
net.meta.trainOpts.weightDecay = 0.0005 ;
% --------------------------------------------------------------------
function net = insertBnorm(net, l)
% --------------------------------------------------------------------
assert(isfield(net.layers{l}, 'weights'));
ndim = size(net.layers{l}.weights{1}, 4);
layer = struct('type', 'bnorm', ...
'weights', {{ones(ndim, 1, 'single'), zeros(ndim, 1, 'single')}}, ...
'learningRate', [1 1], ...
'weightDecay', [0 0]) ;
net.layers{l}.biases = [] ;
net.layers = horzcat(net.layers(1:l), layer, net.layers(l+1:end)) ;
我想做的是在 Keras 中构建相同的架构,这是我目前尝试的:
model = Sequential()
model.add(Conv2D(64, (3, 3), strides=1, input_shape=input_shape))
model.add(MaxPooling2D(pool_size=(3, 3), strides=1))
model.add(Conv2D(128, (5, 5), strides=1))
model.add(MaxPooling2D(pool_size=(2, 2), strides=2))
model.add(Conv2D(256, (3, 3), strides=1))
model.add(MaxPooling2D(pool_size=(3, 3), strides=1))
model.add(Conv2D(512, (5, 5), strides=1))
model.add(MaxPooling2D(pool_size=(2, 2), strides=1))
model.add(Conv2D(256, (1, 1)))
convout1=Activation('relu')
model.add(convout1)
model.add(Flatten())
model.add(Dense(num_classes, activation='softmax'))
opt = keras.optimizers.rmsprop(lr=0.0001, decay=0.0005)
model.compile(loss='categorical_crossentropy', optimizer=opt, metrics=['binary_accuracy'])
然而,当我 运行 matconvnet 网络时我有 87% 的准确率,如果我 运行 keras 版本我有 77% 的准确率。如果它们应该是同一个网络并且数据相同,那么区别在哪里?我的 Keras 架构有什么问题?
在您的 MatConvNet 版本中,您使用带动量的 SGD。
在 Keras 中,您使用 rmsprop
使用不同的学习规则,您应该尝试不同的学习率。有时动量在训练 CNN 时也很有用。
你能试试 Keras 中的 SGD+momentum 并让我知道会发生什么吗?
另一件可能不同的事情是初始化。例如,在 MatConvNet 中,您使用 f= 0.0125 作为标准差的高斯初始化。在 Keras 中,我不确定默认初始化。
一般来说,如果不使用批量归一化,网络很容易出现很多数值问题。如果您在两个网络中都使用批量归一化,我敢打赌结果会相似。您有什么理由不想使用批量归一化吗?
我在 matconvnet 中有以下卷积神经网络架构,我用它来训练我自己的数据:
function net = cnn_mnist_init(varargin)
% CNN_MNIST_LENET Initialize a CNN similar for MNIST
opts.batchNormalization = false ;
opts.networkType = 'simplenn' ;
opts = vl_argparse(opts, varargin) ;
f= 0.0125 ;
net.layers = {} ;
net.layers{end+1} = struct('name','conv1',...
'type', 'conv', ...
'weights', {{f*randn(3,3,1,64, 'single'), zeros(1, 64, 'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','pool1',...
'type', 'pool', ...
'method', 'max', ...
'pool', [3 3], ...
'stride', 1, ...
'pad', 0);
net.layers{end+1} = struct('name','conv2',...
'type', 'conv', ...
'weights', {{f*randn(5,5,64,128, 'single'),zeros(1,128,'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','pool2',...
'type', 'pool', ...
'method', 'max', ...
'pool', [2 2], ...
'stride', 2, ...
'pad', 0) ;
net.layers{end+1} = struct('name','conv3',...
'type', 'conv', ...
'weights', {{f*randn(3,3,128,256, 'single'),zeros(1,256,'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','pool3',...
'type', 'pool', ...
'method', 'max', ...
'pool', [3 3], ...
'stride', 1, ...
'pad', 0) ;
net.layers{end+1} = struct('name','conv4',...
'type', 'conv', ...
'weights', {{f*randn(5,5,256,512, 'single'),zeros(1,512,'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','pool4',...
'type', 'pool', ...
'method', 'max', ...
'pool', [2 2], ...
'stride', 1, ...
'pad', 0) ;
net.layers{end+1} = struct('name','ip1',...
'type', 'conv', ...
'weights', {{f*randn(1,1,256,256, 'single'), zeros(1,256,'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','relu',...
'type', 'relu');
net.layers{end+1} = struct('name','classifier',...
'type', 'conv', ...
'weights', {{f*randn(1,1,256,2, 'single'), zeros(1,2,'single')}}, ...
'stride', 1, ...
'pad', 0,...
'learningRate', [1 2]) ;
net.layers{end+1} = struct('name','loss',...
'type', 'softmaxloss') ;
% optionally switch to batch normalization
if opts.batchNormalization
net = insertBnorm(net, 1) ;
net = insertBnorm(net, 4) ;
net = insertBnorm(net, 7) ;
net = insertBnorm(net, 10) ;
net = insertBnorm(net, 13) ;
end
% Meta parameters
net.meta.inputSize = [28 28 1] ;
net.meta.trainOpts.learningRate = [0.01*ones(1,10) 0.001*ones(1,10) 0.0001*ones(1,10)];
disp(net.meta.trainOpts.learningRate);
pause;
net.meta.trainOpts.numEpochs = length(net.meta.trainOpts.learningRate) ;
net.meta.trainOpts.batchSize = 256 ;
net.meta.trainOpts.momentum = 0.9 ;
net.meta.trainOpts.weightDecay = 0.0005 ;
% --------------------------------------------------------------------
function net = insertBnorm(net, l)
% --------------------------------------------------------------------
assert(isfield(net.layers{l}, 'weights'));
ndim = size(net.layers{l}.weights{1}, 4);
layer = struct('type', 'bnorm', ...
'weights', {{ones(ndim, 1, 'single'), zeros(ndim, 1, 'single')}}, ...
'learningRate', [1 1], ...
'weightDecay', [0 0]) ;
net.layers{l}.biases = [] ;
net.layers = horzcat(net.layers(1:l), layer, net.layers(l+1:end)) ;
我想做的是在 Keras 中构建相同的架构,这是我目前尝试的:
model = Sequential()
model.add(Conv2D(64, (3, 3), strides=1, input_shape=input_shape))
model.add(MaxPooling2D(pool_size=(3, 3), strides=1))
model.add(Conv2D(128, (5, 5), strides=1))
model.add(MaxPooling2D(pool_size=(2, 2), strides=2))
model.add(Conv2D(256, (3, 3), strides=1))
model.add(MaxPooling2D(pool_size=(3, 3), strides=1))
model.add(Conv2D(512, (5, 5), strides=1))
model.add(MaxPooling2D(pool_size=(2, 2), strides=1))
model.add(Conv2D(256, (1, 1)))
convout1=Activation('relu')
model.add(convout1)
model.add(Flatten())
model.add(Dense(num_classes, activation='softmax'))
opt = keras.optimizers.rmsprop(lr=0.0001, decay=0.0005)
model.compile(loss='categorical_crossentropy', optimizer=opt, metrics=['binary_accuracy'])
然而,当我 运行 matconvnet 网络时我有 87% 的准确率,如果我 运行 keras 版本我有 77% 的准确率。如果它们应该是同一个网络并且数据相同,那么区别在哪里?我的 Keras 架构有什么问题?
在您的 MatConvNet 版本中,您使用带动量的 SGD。
在 Keras 中,您使用 rmsprop
使用不同的学习规则,您应该尝试不同的学习率。有时动量在训练 CNN 时也很有用。
你能试试 Keras 中的 SGD+momentum 并让我知道会发生什么吗?
另一件可能不同的事情是初始化。例如,在 MatConvNet 中,您使用 f= 0.0125 作为标准差的高斯初始化。在 Keras 中,我不确定默认初始化。
一般来说,如果不使用批量归一化,网络很容易出现很多数值问题。如果您在两个网络中都使用批量归一化,我敢打赌结果会相似。您有什么理由不想使用批量归一化吗?