Tensorflow 1.12 将 dataset.filter 应用于 dataset.window
Tensorflow 1.12 apply dataset.filter to dataset.window
我有一个顺序数据集,我从中创建 windows 以训练 RNN。在某些情况下,我想丢弃某些 windows。但是,当我使用 dataset.window
后跟 dataset.filter
时,管道内部出现问题。这是一个玩具示例,有人可以告诉我如何正确执行此操作。这个玩具示例演示了我的问题。下面的代码创建大小为 4 的 windows,然后每批创建 4 个 windows 的批次。如果 window 中的最后一个元素是奇数,我想扔掉一个 window,所以我的批次的大小总是 4,但批次中的 windows 总是必须以一个结尾事件元素。
import tensorflow as tf
sess = tf.InteractiveSession()
ds = tf.data.Dataset.range(100)
ds = ds.window(size=4, shift=1,
stride=1,
drop_remainder=True).flat_map(lambda x: x.batch(4))
#*I want to keep the window if the last element in the window is even*
ds = ds.filter(lambda x: x[3] % 2 == 0)
ds = ds.repeat()
ds = ds.batch(4, drop_remainder=True)
it = ds.make_one_shot_iterator()
data = it.get_next()
for i in range(100):
print(sess.run([data]))
sess.close()
这会引发以下错误:
OutOfRangeError: End of sequence
[[{{node IteratorGetNext_6}} = IteratorGetNext[output_shapes=[[4,?]], output_types=[DT_INT64], _device="/job:localhost/replica:0/task:0/device:CPU:0"](OneShotIterator_6)]]
During handling of the above exception, another exception occurred:
OutOfRangeError Traceback (most recent call last)
<ipython-input-54-d6d959b5be78> in <module>
1 for i in range(100):
----> 2 print(sess.run([data]))
如果你在 filter 方法中查看 return 类型的谓词,你需要 return 一个标量 tf bool 张量,我怀疑你的 pythonic 不会发生这种情况谓词。将代码修改为 return 这样的张量,给了我结果。
import tensorflow as tf
sess = tf.InteractiveSession()
ds = tf.data.Dataset.range(100)
ds = ds.window(size=4, shift=1,
stride=1,
drop_remainder=True).flat_map(lambda x: x.batch(4))
#*I want to keep the window if the last element in the window is even*
ds = ds.filter(lambda x: tf.equal(x[3] % 2, 0))
ds = ds.repeat()
ds = ds.batch(4, drop_remainder=True)
it = ds.make_one_shot_iterator()
data = it.get_next()
for i in range(100):
print(sess.run([data]))
sess.close()
结果:
[array([[ 1, 2, 3, 4],
[ 3, 4, 5, 6],
[ 5, 6, 7, 8],
[ 7, 8, 9, 10]])]
[array([[ 9, 10, 11, 12],
[11, 12, 13, 14],
[13, 14, 15, 16],
[15, 16, 17, 18]])]
[array([[17, 18, 19, 20],
[19, 20, 21, 22],
[21, 22, 23, 24],
[23, 24, 25, 26]])]
[array([[25, 26, 27, 28],
[27, 28, 29, 30],
[29, 30, 31, 32],
[31, 32, 33, 34]])]
[array([[33, 34, 35, 36],
[35, 36, 37, 38],
[37, 38, 39, 40],
[39, 40, 41, 42]])]
等等
我有一个顺序数据集,我从中创建 windows 以训练 RNN。在某些情况下,我想丢弃某些 windows。但是,当我使用 dataset.window
后跟 dataset.filter
时,管道内部出现问题。这是一个玩具示例,有人可以告诉我如何正确执行此操作。这个玩具示例演示了我的问题。下面的代码创建大小为 4 的 windows,然后每批创建 4 个 windows 的批次。如果 window 中的最后一个元素是奇数,我想扔掉一个 window,所以我的批次的大小总是 4,但批次中的 windows 总是必须以一个结尾事件元素。
import tensorflow as tf
sess = tf.InteractiveSession()
ds = tf.data.Dataset.range(100)
ds = ds.window(size=4, shift=1,
stride=1,
drop_remainder=True).flat_map(lambda x: x.batch(4))
#*I want to keep the window if the last element in the window is even*
ds = ds.filter(lambda x: x[3] % 2 == 0)
ds = ds.repeat()
ds = ds.batch(4, drop_remainder=True)
it = ds.make_one_shot_iterator()
data = it.get_next()
for i in range(100):
print(sess.run([data]))
sess.close()
这会引发以下错误:
OutOfRangeError: End of sequence
[[{{node IteratorGetNext_6}} = IteratorGetNext[output_shapes=[[4,?]], output_types=[DT_INT64], _device="/job:localhost/replica:0/task:0/device:CPU:0"](OneShotIterator_6)]]
During handling of the above exception, another exception occurred:
OutOfRangeError Traceback (most recent call last)
<ipython-input-54-d6d959b5be78> in <module>
1 for i in range(100):
----> 2 print(sess.run([data]))
如果你在 filter 方法中查看 return 类型的谓词,你需要 return 一个标量 tf bool 张量,我怀疑你的 pythonic 不会发生这种情况谓词。将代码修改为 return 这样的张量,给了我结果。
import tensorflow as tf
sess = tf.InteractiveSession()
ds = tf.data.Dataset.range(100)
ds = ds.window(size=4, shift=1,
stride=1,
drop_remainder=True).flat_map(lambda x: x.batch(4))
#*I want to keep the window if the last element in the window is even*
ds = ds.filter(lambda x: tf.equal(x[3] % 2, 0))
ds = ds.repeat()
ds = ds.batch(4, drop_remainder=True)
it = ds.make_one_shot_iterator()
data = it.get_next()
for i in range(100):
print(sess.run([data]))
sess.close()
结果:
[array([[ 1, 2, 3, 4],
[ 3, 4, 5, 6],
[ 5, 6, 7, 8],
[ 7, 8, 9, 10]])]
[array([[ 9, 10, 11, 12],
[11, 12, 13, 14],
[13, 14, 15, 16],
[15, 16, 17, 18]])]
[array([[17, 18, 19, 20],
[19, 20, 21, 22],
[21, 22, 23, 24],
[23, 24, 25, 26]])]
[array([[25, 26, 27, 28],
[27, 28, 29, 30],
[29, 30, 31, 32],
[31, 32, 33, 34]])]
[array([[33, 34, 35, 36],
[35, 36, 37, 38],
[37, 38, 39, 40],
[39, 40, 41, 42]])]
等等