多标签分类keras中的奇怪准确性
Weird accuracy in multilabel classification keras
我有一个多标签分类问题,我使用了以下代码,但验证准确率在第一个时期跃升至 99%,考虑到数据的复杂性,这很奇怪,因为输入特征是从初始模型 (pool3) 中提取的 2048 :0) 图层和标签是 [1000],(这里是包含特征样本和标签的文件的 link:https://drive.google.com/file/d/0BxI_8PO3YBPPYkp6dHlGeExpS1k/view?usp=sharing),
是不是我做错了什么??
注意:标签是稀疏向量,仅包含 1 ~ 10 个条目作为 1,其余为零
model.compile(optimizer='adadelta', loss='binary_crossentropy', metrics=['accuracy'])
预测的输出为零!
我在训练模型时做错了什么来打扰预测?
#input is the features file and labels file
def generate_arrays_from_file(path ,batch_size=100):
x=np.empty([batch_size,2048])
y=np.empty([batch_size,1000])
while True:
f = open(path)
i = 1
for line in f:
# create Numpy arrays of input data
# and labels, from each line in the file
words=line.split(',')
words=map(float, words[1:])
x_= np.array(words[0:2048])
y_=words[2048:]
y_= np.array(map(int,y_))
x_=x_.reshape((1, -1))
#print np.squeeze(x_)
y_=y_.reshape((1,-1))
x[i]= x_
y[i]=y_
i += 1
if i == batch_size:
i=1
yield (x, y)
f.close()
model = Sequential()
model.add(Dense(units=2048, activation='sigmoid', input_dim=2048))
model.add(Dense(units=1000, activation="sigmoid",
kernel_initializer="uniform"))
model.compile(optimizer='adadelta', loss='binary_crossentropy', metrics=
['accuracy'])
model.fit_generator(generate_arrays_from_file('train.txt'),
validation_data= generate_arrays_from_file('test.txt'),
validation_steps=1000,epochs=100,steps_per_epoch=1000,
verbose=1)
我认为准确性的问题是您的输出稀疏。
Keras 使用以下公式计算准确度:
K.mean(K.equal(y_true, K.round(y_pred)), axis=-1)
因此,在您的情况下,只有 1~10 个非零标签,全 0 的预测将产生 99.9% ~ 99% 的准确率。
至于不学习的问题,我认为问题是你使用 sigmoid 作为最后一个激活并使用 0 或 1 作为输出值。这是不好的做法,因为为了使 sigmoid 为 return 0 或 1,它作为输入获得的值必须非常大或非常小,这反映在具有非常大(绝对值)权重的网络上。此外,由于在每个训练输出中,1 远少于 0,因此网络将很快到达一个稳定点,在该点它简单地输出全零(这种情况下的损失也不是很大,应该在 0.016~0.16 左右)。
你可以做的是缩放你的输出标签,例如让它们在 (0.2, 0.8) 之间,这样网络的权重就不会变得太大或太小。或者,您可以使用 relu
作为激活函数。
你试过用余弦相似度作为损失函数吗?
我有同样的多标签+高维问题。
余弦距离考虑了模型输出(预测)和所需输出(真实class)向量的方向。
它是两个向量之间的归一化点积。
在 keras 中,cosine_proximity 函数是 -1*cosine_distance。这意味着 -1 对应于具有相同大小和方向的两个向量。
我有一个多标签分类问题,我使用了以下代码,但验证准确率在第一个时期跃升至 99%,考虑到数据的复杂性,这很奇怪,因为输入特征是从初始模型 (pool3) 中提取的 2048 :0) 图层和标签是 [1000],(这里是包含特征样本和标签的文件的 link:https://drive.google.com/file/d/0BxI_8PO3YBPPYkp6dHlGeExpS1k/view?usp=sharing), 是不是我做错了什么??
注意:标签是稀疏向量,仅包含 1 ~ 10 个条目作为 1,其余为零
model.compile(optimizer='adadelta', loss='binary_crossentropy', metrics=['accuracy'])
预测的输出为零!
我在训练模型时做错了什么来打扰预测?
#input is the features file and labels file
def generate_arrays_from_file(path ,batch_size=100):
x=np.empty([batch_size,2048])
y=np.empty([batch_size,1000])
while True:
f = open(path)
i = 1
for line in f:
# create Numpy arrays of input data
# and labels, from each line in the file
words=line.split(',')
words=map(float, words[1:])
x_= np.array(words[0:2048])
y_=words[2048:]
y_= np.array(map(int,y_))
x_=x_.reshape((1, -1))
#print np.squeeze(x_)
y_=y_.reshape((1,-1))
x[i]= x_
y[i]=y_
i += 1
if i == batch_size:
i=1
yield (x, y)
f.close()
model = Sequential()
model.add(Dense(units=2048, activation='sigmoid', input_dim=2048))
model.add(Dense(units=1000, activation="sigmoid",
kernel_initializer="uniform"))
model.compile(optimizer='adadelta', loss='binary_crossentropy', metrics=
['accuracy'])
model.fit_generator(generate_arrays_from_file('train.txt'),
validation_data= generate_arrays_from_file('test.txt'),
validation_steps=1000,epochs=100,steps_per_epoch=1000,
verbose=1)
我认为准确性的问题是您的输出稀疏。
Keras 使用以下公式计算准确度:
K.mean(K.equal(y_true, K.round(y_pred)), axis=-1)
因此,在您的情况下,只有 1~10 个非零标签,全 0 的预测将产生 99.9% ~ 99% 的准确率。
至于不学习的问题,我认为问题是你使用 sigmoid 作为最后一个激活并使用 0 或 1 作为输出值。这是不好的做法,因为为了使 sigmoid 为 return 0 或 1,它作为输入获得的值必须非常大或非常小,这反映在具有非常大(绝对值)权重的网络上。此外,由于在每个训练输出中,1 远少于 0,因此网络将很快到达一个稳定点,在该点它简单地输出全零(这种情况下的损失也不是很大,应该在 0.016~0.16 左右)。
你可以做的是缩放你的输出标签,例如让它们在 (0.2, 0.8) 之间,这样网络的权重就不会变得太大或太小。或者,您可以使用 relu
作为激活函数。
你试过用余弦相似度作为损失函数吗?
我有同样的多标签+高维问题。
余弦距离考虑了模型输出(预测)和所需输出(真实class)向量的方向。
它是两个向量之间的归一化点积。
在 keras 中,cosine_proximity 函数是 -1*cosine_distance。这意味着 -1 对应于具有相同大小和方向的两个向量。