无法在 TensorFlow 中为 GradientDescentOptimizer 收集梯度
Cannot gather gradients for GradientDescentOptimizer in TensorFlow
我一直在尝试为 TensorFlow 中的 GradientDescentOptimizer 的每个步骤收集梯度步骤,但是当我尝试将 apply_gradients()
的结果传递给sess.run()
。我尝试 运行 的代码是:
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
x = tf.placeholder(tf.float32,[None,784])
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))
y = tf.nn.softmax(tf.matmul(x,W)+b)
y_ = tf.placeholder(tf.float32,[None,10])
cross_entropy = -tf.reduce_sum(y_*log(y))
# note that up to this point, this example is identical to the tutorial on tensorflow.org
gradstep = tf.train.GradientDescentOptimizer(0.01).compute_gradients(cross_entropy)
sess = tf.Session()
sess.run(tf.initialize_all_variables())
batch_x,batch_y = mnist.train.next_batch(100)
print sess.run(gradstep, feed_dict={x:batch_x,y_:batch_y})
请注意,如果我将最后一行替换为 print sess.run(train_step,feed_dict={x:batch_x,y_:batch_y})
,其中 train_step = tf.GradientDescentOptimizer(0.01).minimize(cross_entropy)
,则不会引发错误。我的困惑源于 minimize
使用与第一步完全相同的参数调用 compute_gradients
这一事实。有人可以解释为什么会出现这种行为吗?
尽量减少调用 compute_gradients,然后是 apply_gradients:您可能错过了第二步。
compute_gradients 只是 returns 梯度/变量,但不对它们应用更新规则。
Optimizer.compute_gradients()
方法 return 是 (Tensor
, Variable
) 对的列表,其中每个张量是相对于相应变量的梯度。
Session.run()
期望 Tensor
对象(或可转换为 Tensor
的对象)列表作为其第一个参数。它不理解如何处理成对列表,因此您会得到一个 TypeError
,您尝试 运行 sess.run(gradstep, ...)
正确的解决方案取决于您要执行的操作。如果你想获取所有的渐变值,你可以这样做:
grad_vals = sess.run([grad for grad, _ in gradstep], feed_dict={x: batch_x, y: batch_y})
# Then, e.g., nuild a variable name-to-gradient dictionary.
var_to_grad = {}
for grad_val, (_, var) in zip(grad_vals, gradstep):
var_to_grad[var.name] = grad_val
如果你也想取变量,可以单独执行如下语句:
sess.run([var for _, var in gradstep])
...但请注意——无需进一步修改您的程序——这将只是 return 每个变量的初始值。
您将必须 运行 优化器的训练步骤(或以其他方式调用 Optimizer.apply_gradients()
)来更新变量。
我一直在尝试为 TensorFlow 中的 GradientDescentOptimizer 的每个步骤收集梯度步骤,但是当我尝试将 apply_gradients()
的结果传递给sess.run()
。我尝试 运行 的代码是:
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
x = tf.placeholder(tf.float32,[None,784])
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))
y = tf.nn.softmax(tf.matmul(x,W)+b)
y_ = tf.placeholder(tf.float32,[None,10])
cross_entropy = -tf.reduce_sum(y_*log(y))
# note that up to this point, this example is identical to the tutorial on tensorflow.org
gradstep = tf.train.GradientDescentOptimizer(0.01).compute_gradients(cross_entropy)
sess = tf.Session()
sess.run(tf.initialize_all_variables())
batch_x,batch_y = mnist.train.next_batch(100)
print sess.run(gradstep, feed_dict={x:batch_x,y_:batch_y})
请注意,如果我将最后一行替换为 print sess.run(train_step,feed_dict={x:batch_x,y_:batch_y})
,其中 train_step = tf.GradientDescentOptimizer(0.01).minimize(cross_entropy)
,则不会引发错误。我的困惑源于 minimize
使用与第一步完全相同的参数调用 compute_gradients
这一事实。有人可以解释为什么会出现这种行为吗?
尽量减少调用 compute_gradients,然后是 apply_gradients:您可能错过了第二步。
compute_gradients 只是 returns 梯度/变量,但不对它们应用更新规则。
Optimizer.compute_gradients()
方法 return 是 (Tensor
, Variable
) 对的列表,其中每个张量是相对于相应变量的梯度。
Session.run()
期望 Tensor
对象(或可转换为 Tensor
的对象)列表作为其第一个参数。它不理解如何处理成对列表,因此您会得到一个 TypeError
,您尝试 运行 sess.run(gradstep, ...)
正确的解决方案取决于您要执行的操作。如果你想获取所有的渐变值,你可以这样做:
grad_vals = sess.run([grad for grad, _ in gradstep], feed_dict={x: batch_x, y: batch_y})
# Then, e.g., nuild a variable name-to-gradient dictionary.
var_to_grad = {}
for grad_val, (_, var) in zip(grad_vals, gradstep):
var_to_grad[var.name] = grad_val
如果你也想取变量,可以单独执行如下语句:
sess.run([var for _, var in gradstep])
...但请注意——无需进一步修改您的程序——这将只是 return 每个变量的初始值。
您将必须 运行 优化器的训练步骤(或以其他方式调用 Optimizer.apply_gradients()
)来更新变量。