TensorFlow 损失函数在第一个时期后归零

Question

我正在尝试基于这篇论文实现图像实例分割的判别损失函数：https://arxiv.org/pdf/1708.02551.pdf（本文link仅供读者参考；我不要指望任何人阅读它来帮助我！)

我的问题：一旦我从一个简单的损失函数转移到一个更复杂的损失函数（就像你在附加的代码片段中看到的那样），损失函数在第一个之后归零时代。我检查了权重，几乎所有权重似乎都在 -300 附近徘徊。它们并不完全相同，但彼此非常接近（仅在小数位不同）。

实现判别损失函数的相关代码：

def regDLF(y_true, y_pred):
    global alpha
    global beta
    global gamma
    global delta_v
    global delta_d
    global image_height
    global image_width
    global nDim

    y_true = tf.reshape(y_true, [image_height*image_width])

    X = tf.reshape(y_pred, [image_height*image_width, nDim])
    uniqueLabels, uniqueInd = tf.unique(y_true)

    numUnique = tf.size(uniqueLabels)

    Sigma = tf.unsorted_segment_sum(X, uniqueInd, numUnique)
    ones_Sigma = tf.ones((tf.shape(X)[0], 1))
    ones_Sigma = tf.unsorted_segment_sum(ones_Sigma,uniqueInd, numUnique)
    mu = tf.divide(Sigma, ones_Sigma)

    Lreg = tf.reduce_mean(tf.norm(mu, axis = 1))

    T = tf.norm(tf.subtract(tf.gather(mu, uniqueInd), X), axis = 1)
    T = tf.divide(T, Lreg)
    T = tf.subtract(T, delta_v)
    T = tf.clip_by_value(T, 0, T)
    T = tf.square(T)

    ones_Sigma = tf.ones_like(uniqueInd, dtype = tf.float32)
    ones_Sigma = tf.unsorted_segment_sum(ones_Sigma,uniqueInd, numUnique)
    clusterSigma = tf.unsorted_segment_sum(T, uniqueInd, numUnique)
    clusterSigma = tf.divide(clusterSigma, ones_Sigma)

    Lvar = tf.reduce_mean(clusterSigma, axis = 0)

    mu_interleaved_rep = tf.tile(mu, [numUnique, 1])
    mu_band_rep = tf.tile(mu, [1, numUnique])
    mu_band_rep = tf.reshape(mu_band_rep, (numUnique*numUnique, nDim))

    mu_diff = tf.subtract(mu_band_rep, mu_interleaved_rep)
    mu_diff = tf.norm(mu_diff, axis = 1)
    mu_diff = tf.divide(mu_diff, Lreg)

    mu_diff = tf.subtract(2*delta_d, mu_diff)
    mu_diff = tf.clip_by_value(mu_diff, 0, mu_diff)
    mu_diff = tf.square(mu_diff)

    numUniqueF = tf.cast(numUnique, tf.float32)
    Ldist = tf.reduce_mean(mu_diff)        

    L = alpha * Lvar + beta * Ldist + gamma * Lreg

    return L

问题：我知道不阅读论文很难理解代码的作用，但我有几个问题：

定义的损失函数有没有明显的错误以上?
有人对为什么损失函数在第一个时期后会归零有一个大概的了解吗？

非常感谢您的宝贵时间和帮助！

Answer 1

在您的 Ldist 计算中，您使用 tf.tile 和 tf.reshape 以下列方式找到不同集群均值之间的距离（假设我们有三个集群）：

mu_1 - mu_1
mu_2 - mu_1
mu_3 - mu_1
mu_1 - mu_2
mu_2 - mu_2
mu_3 - mu_2
mu_1 - mu_3
mu_2 - mu_3
mu_3 - mu_3

问题在于您的距离向量包含 零向量 ，然后您执行了范数运算。 tf.norm 数值不稳定，因为它对向量的长度进行除法。结果是梯度得到 zero 或 inf。看到这个 github issue.

解决方案是以这样的方式删除那些零向量。

Answer 2

我认为您的问题受到 tf.norm 的影响，这是不安全的（导致向量中某处为零，因此其梯度为 nan）。用这个自定义函数替换 tf.norm 会更好：

def tf_norm(inputs, axis=1, epsilon=1e-7,  name='safe_norm'):
    squared_norm    = tf.reduce_sum(tf.square(inputs), axis=axis, keep_dims=True)
    safe_norm       = tf.sqrt(squared_norm+epsilon)
    return tf.identity(safe_norm, name=name)

TensorFlow 损失函数在第一个时期后归零

TensorFlow loss function zeroes out after first epoch

loss

image-segmentation

deep-learning

keras

tensorflow