使用tensorflow求解代数时,训练后所有变量都变成了nan
When using tensorflow to solve algebra, all variables became nan after training
我尝试将 Ax^2+Bx+C 求解为 (ax+b)(cx+d),其中 A、B、C 已知,并求解 a、b、c、d 的值。
这是代码:
import tensorflow as tf
a = tf.Variable([.5])
b = tf.Variable([.5])
c = tf.Variable([.5])
d = tf.Variable([.5])
x = tf.placeholder(tf.float32)
y = tf.placeholder(tf.float32)
fn1 = 2*x**2+3*x+4 #A=2,B=3,C=4
fn2 = (a*x+b)*(c*x+d)
x_train = [1,2,3,4]
y_train = [9,18,31,48]
loss = tf.reduce_sum(tf.square(fn2-y))
optimizer = tf.train.GradientDescentOptimizer(0.01)
train = optimizer.minimize(loss)
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
for i in range(1000):
sess.run(train, {x:x_train, y:y_train})
print(sess.run([a,b,c,d]))
结果显示所有 a、b、c 和 d 都为 nan。
如何解决?我错过了什么?感谢您的帮助。
您的成本函数无法以 0.01 的学习率收敛。将学习率设置为 0.0001(或更低),成本函数开始收敛。
optimizer = tf.train.GradientDescentOptimizer(0.0001)
此外,如果您将 fn2 修改为 a * x ** 2 + b * x + c
,您将获得更接近 Ax^2+Bx+C 的解。但是如果你使用 (ax+b)(cx+d),你可能会得到一个不同的解决方案,它将满足 x = [1,2,3,4]
.
的小型训练数据集
另一个小技巧是不要为所有变量初始化相同的值(在你的情况下为 0.5)。在-1.0到1.0之间随机初始化它。
我尝试将 Ax^2+Bx+C 求解为 (ax+b)(cx+d),其中 A、B、C 已知,并求解 a、b、c、d 的值。 这是代码:
import tensorflow as tf
a = tf.Variable([.5])
b = tf.Variable([.5])
c = tf.Variable([.5])
d = tf.Variable([.5])
x = tf.placeholder(tf.float32)
y = tf.placeholder(tf.float32)
fn1 = 2*x**2+3*x+4 #A=2,B=3,C=4
fn2 = (a*x+b)*(c*x+d)
x_train = [1,2,3,4]
y_train = [9,18,31,48]
loss = tf.reduce_sum(tf.square(fn2-y))
optimizer = tf.train.GradientDescentOptimizer(0.01)
train = optimizer.minimize(loss)
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
for i in range(1000):
sess.run(train, {x:x_train, y:y_train})
print(sess.run([a,b,c,d]))
结果显示所有 a、b、c 和 d 都为 nan。 如何解决?我错过了什么?感谢您的帮助。
您的成本函数无法以 0.01 的学习率收敛。将学习率设置为 0.0001(或更低),成本函数开始收敛。
optimizer = tf.train.GradientDescentOptimizer(0.0001)
此外,如果您将 fn2 修改为 a * x ** 2 + b * x + c
,您将获得更接近 Ax^2+Bx+C 的解。但是如果你使用 (ax+b)(cx+d),你可能会得到一个不同的解决方案,它将满足 x = [1,2,3,4]
.
另一个小技巧是不要为所有变量初始化相同的值(在你的情况下为 0.5)。在-1.0到1.0之间随机初始化它。