使用 Pybrain 进行模式识别

Pattern recognition with Pybrain

是否有训练 pybrain 在单个神经网络中识别多种模式的方法?例如,我添加了两种不同模式的几种排列:

第一个模式:

(200[1-9], 200[1-9]),(400[1-9],400[1-9])

第二种模式:

(900[1-9], 900[1-9]),(100[1-9],100[1-9])

然后对于我的无监督数据集,我添加了 (90002, 90009),我希望它会 return [100[1-9],100[1-9]](第二个模式)然而它 returns [25084, 25084]。我意识到它试图在给定所有输入的情况下找到最佳值,但是如果有意义的话,我试图让它区分集合中的某些模式。

这是我正在使用的示例:

Request for example: Recurrent neural network for predicting next value in a sequence

from pybrain.tools.shortcuts import buildNetwork
from pybrain.supervised.trainers import BackpropTrainer
from pybrain.datasets import SupervisedDataSet,UnsupervisedDataSet
from pybrain.structure import LinearLayer
from pybrain.datasets import ClassificationDataSet
from pybrain.structure.modules.sigmoidlayer import SigmoidLayer
import random

ds = ClassificationDataSet(2, 1)

tng_dataset_size = 1000
unseen_dataset_size = 100
print 'training dataset size is ', tng_dataset_size
print 'unseen dataset size is ', unseen_dataset_size
print 'adding data..'
for x in range(tng_dataset_size):
   rand1 = random.randint(1,9)
   rand2 = random.randint(1,9)

   pattern_one_0 = int('2000'+str(rand1))
   pattern_one_1 = int('2000'+str(rand2))
   pattern_two_0 = int('9000'+str(rand1))
   pattern_two_1 = int('9000'+str(rand2))
   ds.addSample((pattern_one_0,pattern_one_1),(0))#pattern 1, maps to 0
   ds.addSample((pattern_two_0,pattern_two_1),(1))#pattern 2, maps to 1


unsupervised_results = []

net = buildNetwork(2, 1, 1, outclass=LinearLayer,bias=True, recurrent=True)
print 'training ...'
trainer = BackpropTrainer(net, ds)
trainer.trainEpochs(500)


ts = UnsupervisedDataSet(2,)
print 'adding pattern 2 to unseen data'
for x in xrange(unseen_dataset_size):
   pattern_two_0 = int('9000'+str(rand1))
   pattern_two_1 = int('9000'+str(rand1))

   ts.addSample((pattern_two_0, pattern_two_1))#adding first part of pattern 2 to unseen data
   a = [int(i) for i in net.activateOnDataset(ts)[0]]#should map to 1

   unsupervised_results.append(a[0])

print 'total hits for pattern 1 ', unsupervised_results.count(0)
print 'total hits for pattern 2 ', unsupervised_results.count(1)

[[编辑]] 添加了分类变量和 ClassificationDataSet。

[[EDIT 1]] 添加了更大的训练集和未见集

是的,有。这里的问题是您选择的表示形式。您正在训练网络输出实数,因此您的 NN 是一个函数,它在一定程度上近似于您在数据集中采样和提供的函数。因此结果是 10000 到 40000 之间的某个值。

您似乎在寻找 classifier。 根据您的描述,我假设您有一组明确定义的模式,您正在寻找。然后你必须将你的模式映射到一个分类变量。例如,您提到的模式 1 (200[1-9], 200[1-9]),(400[1-9],400[1-9]) 将是 0,模式 2 将是 1,依此类推。

然后,你训练网络输出输入模式所属的class (0,1,...)。 可以说,鉴于您的模式结构,基于规则的 class化可能比 ANN 更合适。

关于数据量,您需要更多。通常,最基本的方法是将数据集分成两组(例如,70-30)。您使用 70% 的样本进行训练,其余 30% 用作未见数据(测试数据),以评估模型的 generalization/over-fitting。一旦掌握了基础知识,您可能想阅读有关交叉验证的内容 运行。