计算雅可比 x Jacobian.T 的有效方法

Efficient way to compute Jacobian x Jacobian.T

假设 J 是某个函数 f 关于某些参数的雅可比矩阵。是否有有效的方法(在 PyTorch 或 Jax 中)有一个函数接受两个输入(x1x2)并计算 J(x1)*J(x2).transpose() 而没有 在内存中实例化整个 J 矩阵?

我遇到过类似 jvp(f, input, v=vjp(f, input)) 的东西,但不是很明白,也不确定我想要什么。

在 JAX 中,您可以使用 jax.jacfwdjax.jacrev 计算完整的雅可比矩阵,或者您可以使用 jax.jvpjax.vjp 计算雅可比运算符及其转置.

因此,例如,假设您有一个函数 Rᴺ → Rᴹ 看起来像这样:

import jax.numpy as jnp
import numpy as np

np.random.seed(1701)
N, M = 10000, 5
f_mat = np.array(np.random.rand(M, N))
def f(x):
  return jnp.sqrt(f_mat @ x / N)

给定两个向量 x1x2,您可以使用 jax.jacfwd

计算每个向量的雅可比矩阵
import jax
x1 = np.array(np.random.rand(N))
x2 = np.array(np.random.rand(N))
J1 = jax.jacfwd(f)(x1)
J2 = jax.jacfwd(f)(x2)
print(J1 @ J2.T)
# [[3.3123782e-05 2.5001222e-05 2.4946943e-05 2.5180108e-05 2.4940484e-05]
#  [2.5084497e-05 3.3233835e-05 2.4956826e-05 2.5108084e-05 2.5048916e-05]
#  [2.4969209e-05 2.4896170e-05 3.3232871e-05 2.5006309e-05 2.4947023e-05]
#  [2.5102483e-05 2.4947576e-05 2.4906987e-05 3.3327218e-05 2.4958186e-05]
#  [2.4981882e-05 2.5007204e-05 2.4966144e-05 2.5076926e-05 3.3595043e-05]]

但是,正如您所注意到的,在计算这个 5x5 结果的过程中,我们实例化了两个 5x10,000 矩阵。我们如何解决这个问题?

答案在jax.jvpjax.vjp中。就您的问题而言,这些调用签名有些不直观,因为它们主要设计用于 forward-mode 和 reverse-mode 自动微分。但从广义上讲,您可以将它们视为一种计算向量 vJ @ vJ.T @ v 的方法,而无需实际显式计算 J

例如,您可以使用 jax.jvp 来计算 J1 对向量的运算效果,而无需实际计算 J1:

J1_op = lambda v: jax.jvp(f, (x1,), (v,))[1]

vN = np.random.rand(N)
np.allclose(J1 @ vN, J1_op(vN))
# True

同样,您可以使用 jax.vjp 来计算 J2.T 对向量的运算效果,而无需实际计算 J2:

J2T_op = lambda v: jax.vjp(f, x2)[1](v)[0]

vM = np.random.rand(M)
np.allclose(J2.T @ vM, J2T_op(vM))
# True

将这些放在一起并在一个单位矩阵上运行可以得到你想要的完整雅可比矩阵乘积:

def direct(f, x1, x2):
  J1 = jax.jacfwd(f)(x1)
  J2 = jax.jacfwd(f)(x2)
  return J1 @ J2.T

def indirect(f, x1, x2, M):
  J1J2T_op = lambda v: jax.jvp(f, (x1,), jax.vjp(f, x2)[1](v))[1]
  return jax.vmap(J1J2T_op)(jnp.eye(M)).T

np.allclose(direct(f, x1, x2), indirect(f, x1, x2, M))
# True

除了节省内存之外,这种间接方法也比直接方法快一点,具体取决于所涉及的雅可比矩阵的大小:

%time direct(f, x1, x2)
# CPU times: user 1.43 s, sys: 14.9 ms, total: 1.44 s
# Wall time: 886 ms
%time indirect(f, x1, x2, M)
# CPU times: user 311 ms, sys: 0 ns, total: 311 ms
# Wall time: 158 ms