Tensorflow 网格 LSTM RNN TypeError

Tensorflow Grid LSTM RNN TypeError

我正在尝试构建一个在 Tensorflow 中处理 3D 数据的 LSTM RNN。根据 this 论文,Grid LSTM RNN 可以是 n 维的。我的网络的想法是有一个 3D 体积 [depth, x, y],网络应该是 [depth, x, y, n_hidden],其中 n_hidden 是 LSTM 单元递归调用的数量。这个想法是每个像素都有自己的 "string" LSTM 递归调用。

输出应该是[depth, x, y, n_classes]。我正在做二元分割——考虑前景和背景,所以 类 的数量只有 2。

# Network Parameters
n_depth = 5
n_input_x = 200 # MNIST data input (img shape: 28*28)
n_input_y = 200
n_hidden = 128 # hidden layer num of features
n_classes = 2

# tf Graph input
x = tf.placeholder("float", [None, n_depth, n_input_x, n_input_y])
y = tf.placeholder("float", [None, n_depth, n_input_x, n_input_y, n_classes])

# Define weights
weights = {}
biases = {}

# Initialize weights
for i in xrange(n_depth * n_input_x * n_input_y):
    weights[i] = tf.Variable(tf.random_normal([n_hidden, n_classes]))
    biases[i] = tf.Variable(tf.random_normal([n_classes]))

def RNN(x, weights, biases):

    # Prepare data shape to match `rnn` function requirements
    # Current data input shape: (batch_size, n_input_y, n_input_x)
    # Permuting batch_size and n_input_y
    x = tf.reshape(x, [-1, n_input_y, n_depth * n_input_x])
    x = tf.transpose(x, [1, 0, 2])
    # Reshaping to (n_input_y*batch_size, n_input_x)

    x =  tf.reshape(x, [-1, n_input_x * n_depth])

    # Split to get a list of 'n_input_y' tensors of shape (batch_size, n_hidden)
    # This input shape is required by `rnn` function
    x = tf.split(0, n_depth * n_input_x * n_input_y, x)

    # Define a lstm cell with tensorflow
    lstm_cell = grid_rnn_cell.GridRNNCell(n_hidden, input_dims=[n_depth, n_input_x, n_input_y])
    # lstm_cell = rnn_cell.MultiRNNCell([lstm_cell] * 12, state_is_tuple=True)
    # lstm_cell = rnn_cell.DropoutWrapper(lstm_cell, output_keep_prob=0.8)
    outputs, states = rnn.rnn(lstm_cell, x, dtype=tf.float32)
    # Linear activation, using rnn inner loop last output
    # pdb.set_trace()

    output = []
    for i in xrange(n_depth * n_input_x * n_input_y):
        #I'll need to do some sort of reshape here on outputs[i]
        output.append(tf.matmul(outputs[i], weights[i]) + biases[i])

    return output


pred = RNN(x, weights, biases)
pred = tf.transpose(tf.pack(pred),[1,0,2])
pred = tf.reshape(pred, [-1, n_depth, n_input_x, n_input_y, n_classes])
# pdb.set_trace()
temp_pred = tf.reshape(pred, [-1, n_classes])
n_input_y = tf.reshape(y, [-1, n_classes])

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(temp_pred, n_input_y))

目前我收到错误:TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

它发生在 RNN 初始化之后:outputs, states = rnn.rnn(lstm_cell, x, dtype=tf.float32)

x当然是float32

类型

我分不清是什么类型GridRNNCell returns,有什么帮助吗?这可能是问题所在。我应该为此定义更多论点吗? input_dims 是有道理的,但是 output_dims 应该是什么?

这是 contrib 代码中的错误吗?

GridRNNCell 位于 contrib/grid_rnn/python/ops/grid_rnn_cell.py

我不确定代码的某些实现决策,所以我决定自己动手。要记住的一件事是,这只是单元格的实现。由您来构建处理 h 和 m 向量的位置和交互的实际机制,并不像传递数据并期望它正确遍历维度那么简单。

因此,例如,如果您在二维空间中工作,请从左上角的块开始,获取传入的 x 和 y 向量,将它们连接在一起,然后使用您的单元格计算输出(其中包括传出向量x 和 y);存储输出以供以后在相邻块中使用由您决定。将这些输出分别传递到每个相应的维度,并在每个相邻块中,连接传入向量(同样,对于每个维度)并计算相邻块的输出。为此,您需要两个 for 循环,一个用于每个维度。

也许 contrib 中的版本适用于此,但我遇到了一些问题(我在这里可能是错的,但据我所知): 1) 使用 concat 和 slice 而不是元组来处理向量。这可能会导致性能下降。 2) 看起来每一步都投射了输入,这对我来说不太合适。在论文中,他们只将沿网格边缘的传入块投射到网络中,而不是整个网络。

如果你看一下代码,其实很简单。也许阅读论文并根据需要调整代码,或者自己动手是最好的选择。请记住,单元仅适用于在每一步执行循环,而不适用于管理传入和传出的 h 和 m 向量。

您使用的是哪个版本的 Grid LSTM 单元?

如果您正在使用 https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/rnn/python/ops/rnn_cell.py

我想你可以尝试初始化'feature_size'和'frequency_skip'。 另外,我认为可能存在另一个错误。在此版本中提供动态形状可能会导致 TypeError

是的,动态形状是原因。有一个 PR 可以解决这个问题:https://github.com/tensorflow/tensorflow/pull/4631

@jstaker7:感谢您的试用。回覆。问题 1,上面的 PR 使用元组来表示状态和输出,希望它可以解决性能问题。 GridRNNCell 是前段时间创建的,当时 Tensorflow 中的所有 LSTMCell 都使用 concat/slice 而不是元组。

回复。问题2,如果你通过NoneGridRNNCell将不会投影输入。一个维度可以是inputrecurrent,当没有输入(inputs = None)时,它会使用递归张量计算。我们还可以使用 2 个输入维度,通过直接实例化 GridRNNCell

当然,为所有情况编写通用 class 会使代码看起来有点复杂,我认为它需要更好的文档。

无论如何,如果您能分享您的改进,或者您可能需要使其 clearer/more 有用的任何想法,那就太好了。无论如何,这是开源项目的本质。