在 Tensorflow 的 Dataset API 中,如何将一个元素映射为多个元素?
In Tensorflow's Dataset API how do you map one element into multiple elements?
在 tensorflow Dataset
管道中,我想定义一个自定义映射函数,它采用单个输入元素(数据样本)和 returns 多个元素(数据样本)。
下面的代码是我的尝试,以及我想要的结果。
我无法很好地遵循 tf.data.Dataset().flat_map()
上的文档,无法理解它是否适用于此处。
import tensorflow as tf
input = [10, 20, 30]
def my_map_func(i):
return [[i, i+1, i+2]] # Fyi [[i], [i+1], [i+2]] throws an exception
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
func=my_map_func, inp=[input], Tout=[tf.int64]
))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
结果:
(array([10, 11, 12]),)
(array([20, 21, 22]),)
(array([30, 31, 32]),)
期望的结果:
(10)
(11)
(12)
(20)
(21)
(22)
(30)
(31)
(32)
还需要两个步骤才能实现。首先,map 函数需要 return 一个 numpy 数组,而不是列表。
然后你可以使用 flat_map
结合 Dataset().from_tensor_slices()
来压平它们。下面的代码现在产生了预期的结果:
在 Tensorflow 1.5 中测试(copy/paste 可运行示例)
import tensorflow as tf
import numpy as np
input = [10, 20, 30]
def my_map_func(i):
return np.array([i, i + 1, i + 2])
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
func=my_map_func, inp=[input], Tout=[tf.int64]
))
ds = ds.flat_map(lambda x: tf.data.Dataset().from_tensor_slices(x))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
如果你有多个变量return,这里有一个方法可以做到这一点,在这个例子中,我输入一个字符串(比如文件名)并输出字符串和整数的倍数。在这种情况下,我为 [10, 20, 30] 的每个整数重复字符串。
Copy/paste 可运行示例:
import tensorflow as tf
import numpy as np
input = [b'testA', b'testB', b'testC']
def my_map_func(input):
return np.array([input, input, input]), np.array([10, 20, 30])
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
func=my_map_func, inp=[input], Tout=[tf.string, tf.int64]))
ds = ds.flat_map(lambda mystr, myint: tf.data.Dataset().zip((
tf.data.Dataset().from_tensor_slices(mystr),
tf.data.Dataset().from_tensor_slices(myint))
))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
一个干净的解决方案,使用 flat_map
和 from_tensor_slices
import tensorflow as tf
input = [10, 20, 30]
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.flat_map(lambda x: tf.data.Dataset.from_tensor_slices([x, x+1, x+2]))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
# 10
# 11
# 12
# 20
# 21
# 22
# 30
# 31
# 32
只是想补充一点,这可以用于每个元素也是字典的数据集。例如,如果输入数据集的一个元素看起来像
{ 'feat1': [2,4], 'feat2': [3]}
对于每个你想根据feat1中的元素拆分成元素的元素,你可以这样写:
def split(element):
dict_of_new_elements = {
'feat1': [
element['feat1'][:, 0],
element['feat1'][:, 1]]
'feat2': [
element['feat2'],
element['feat2']]
}
return tf.data.Dataset.from_tensor_slices(dict_of_new_elements)
dataset.flat_map(split)
哪个会产生
[
{'feat1': 2, 'feat2': 3},
{'feat1': 4, 'feat2': 3},
]
在 tensorflow Dataset
管道中,我想定义一个自定义映射函数,它采用单个输入元素(数据样本)和 returns 多个元素(数据样本)。
下面的代码是我的尝试,以及我想要的结果。
我无法很好地遵循 tf.data.Dataset().flat_map()
上的文档,无法理解它是否适用于此处。
import tensorflow as tf
input = [10, 20, 30]
def my_map_func(i):
return [[i, i+1, i+2]] # Fyi [[i], [i+1], [i+2]] throws an exception
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
func=my_map_func, inp=[input], Tout=[tf.int64]
))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
结果:
(array([10, 11, 12]),)
(array([20, 21, 22]),)
(array([30, 31, 32]),)
期望的结果:
(10)
(11)
(12)
(20)
(21)
(22)
(30)
(31)
(32)
还需要两个步骤才能实现。首先,map 函数需要 return 一个 numpy 数组,而不是列表。
然后你可以使用 flat_map
结合 Dataset().from_tensor_slices()
来压平它们。下面的代码现在产生了预期的结果:
在 Tensorflow 1.5 中测试(copy/paste 可运行示例)
import tensorflow as tf
import numpy as np
input = [10, 20, 30]
def my_map_func(i):
return np.array([i, i + 1, i + 2])
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
func=my_map_func, inp=[input], Tout=[tf.int64]
))
ds = ds.flat_map(lambda x: tf.data.Dataset().from_tensor_slices(x))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
如果你有多个变量return,这里有一个方法可以做到这一点,在这个例子中,我输入一个字符串(比如文件名)并输出字符串和整数的倍数。在这种情况下,我为 [10, 20, 30] 的每个整数重复字符串。
Copy/paste 可运行示例:
import tensorflow as tf
import numpy as np
input = [b'testA', b'testB', b'testC']
def my_map_func(input):
return np.array([input, input, input]), np.array([10, 20, 30])
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
func=my_map_func, inp=[input], Tout=[tf.string, tf.int64]))
ds = ds.flat_map(lambda mystr, myint: tf.data.Dataset().zip((
tf.data.Dataset().from_tensor_slices(mystr),
tf.data.Dataset().from_tensor_slices(myint))
))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
一个干净的解决方案,使用 flat_map
和 from_tensor_slices
import tensorflow as tf
input = [10, 20, 30]
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.flat_map(lambda x: tf.data.Dataset.from_tensor_slices([x, x+1, x+2]))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
# 10
# 11
# 12
# 20
# 21
# 22
# 30
# 31
# 32
只是想补充一点,这可以用于每个元素也是字典的数据集。例如,如果输入数据集的一个元素看起来像
{ 'feat1': [2,4], 'feat2': [3]}
对于每个你想根据feat1中的元素拆分成元素的元素,你可以这样写:
def split(element):
dict_of_new_elements = {
'feat1': [
element['feat1'][:, 0],
element['feat1'][:, 1]]
'feat2': [
element['feat2'],
element['feat2']]
}
return tf.data.Dataset.from_tensor_slices(dict_of_new_elements)
dataset.flat_map(split)
哪个会产生
[
{'feat1': 2, 'feat2': 3},
{'feat1': 4, 'feat2': 3},
]