TensorFlow：计算 Hessian 矩阵（和高阶导数）

Question

我希望能够为我的损失函数计算高阶导数。至少我希望能够计算 Hessian 矩阵。目前我正在计算 Hessian 矩阵的数值近似值，但这更昂贵，而且更重要的是，据我所知，如果矩阵是病态的（条件数非常大），则不准确。

Theano 通过符号循环实现了这一点，参见 here, but Tensorflow does not seem to support symbolic control flow yet, see here. A similar issue has been raised on TF github page, see here，但似乎有一段时间没有人跟进这个问题了。

是否有人知道在 TensorFlow 中（象征性地）计算高阶导数的最新发展或方法？

Answer 1

好吧，您可以不费吹灰之力计算海森矩阵！

假设您有两个变量：

x = tf.Variable(np.random.random_sample(), dtype=tf.float32)
y = tf.Variable(np.random.random_sample(), dtype=tf.float32)

以及使用这两个变量定义的函数：

f = tf.pow(x, cons(2)) + cons(2) * x * y + cons(3) * tf.pow(y, cons(2)) + cons(4) * x + cons(5) * y + cons(6)

其中：

def cons(x):
    return tf.constant(x, dtype=tf.float32)

所以用代数术语来说，这个函数是

现在我们定义一个计算 hessian 的方法：

def compute_hessian(fn, vars):
    mat = []
    for v1 in vars:
        temp = []
        for v2 in vars:
            # computing derivative twice, first w.r.t v2 and then w.r.t v1
            temp.append(tf.gradients(tf.gradients(f, v2)[0], v1)[0])
        temp = [cons(0) if t == None else t for t in temp] # tensorflow returns None when there is no gradient, so we replace None with 0
        temp = tf.pack(temp)
        mat.append(temp)
    mat = tf.pack(mat)
    return mat

并调用它：

# arg1: our defined function, arg2: list of tf variables associated with the function
hessian = compute_hessian(f, [x, y])

现在我们抓取一个 tensorflow 会话，初始化变量，然后运行 hessian :

sess = tf.Session()
sess.run(tf.initialize_all_variables())
print sess.run(hessian)

注意：由于我们使用的函数本质上是二次函数（并且我们进行了两次微分），因此无论变量如何，返回的 hessian 都将具有常量值。

输出为：

[[ 2.  2.]
[ 2.  6.]]

Answer 2

提醒一句：Hessian 矩阵（或更一般地说，张量）的计算和存储成本很高。您实际上可能会重新考虑您是否真的需要完整的 Hessian，或者只是 一些 hessian 属性。无需显式 Hessian 矩阵，只需使用 Hessian 向量乘积 oracle，即可获得其中的一些，包括迹线、范数和最高特征值 。反过来，hessian-vector 产品可以有效地实现（也在领先的自动差异框架中，如 Tensorflow 和 PyTorch）

TensorFlow：计算 Hessian 矩阵（和高阶导数）

TensorFlow: Compute Hessian matrix (and higher order derivatives)

python

matrix

tensorflow