如何将多文件(b、t、f)形数据流式传输到 Tensorflow 数据集中

How to stream a multi-file (b, t, f)-shaped data into Tensorflow Dataset

我有一个大数据,我想将其加载到 Tensorflow 数据集中以训练 LSTM 网络。由于数据的大小,我想使用流式传输功能而不是将整个数据读入内存。我正在努力读取我的数据,以便每个样本 i 的形状正确为 (ti, m).


# One hundred samples, each with three features
# Second dim is time-steps for each sample. I will
# randomize this in a step below
x = np.random.randn(100,10,3)
# One hundred {0,1} labels
y = (np.random.rand(100)>0.5)*1

# Save each sample in its own file
for i in range(len(x)):
  cat = y[i][0]
  data = x[i]
  # Simulate random length of each sample
  data = data[:np.random.randint(4,10),:]
  fname = 'tmp_csv/{:.0f}/{:03.0f}.csv'.format(cat,i)
  np.savetxt(fname, data, delimiter=',')

现在我有一百个 csv 文件,每个文件都有一个大小为 (ti, 3) 的样本。如何在保持每个样本的形状的同时将这些文件读回到 Tensorflow 数据集中?

我尝试了序列化(但不知道如何正确执行)、展平以便每个样本都在一行中(但不知道如何处理可变行大小以及如何重塑),然后我尝试香草 make_csv_dataset。这是我的 make_csv_dataset 尝试:

ds = tf.data.experimental.make_csv_dataset(
  file_pattern = "tmp_csv/*/*.csv",
  batch_size=10, num_epochs=1,

for i in ds.take(1):

...但这会导致每个样本的形状为 (1,3)。

问题是 make_csv_dataset 将每个 csv 文件中的每一行解释为一个样本。你可以尝试这样的事情,但我不确定它对你的用例有多有效:

import tensorflow as tf
import numpy as np

def columns_to_tensor(data_from_one_csv):
  ta = tf.TensorArray(dtype=tf.float32, size=0, dynamic_size=True)
  for i, t in enumerate(data_from_one_csv):
    ta = ta.write(tf.cast(i, dtype=tf.int32), tf.stack([t[0], t[1], t[2]], axis=0))
  return ta.stack()

files = tf.data.Dataset.list_files("tmp_csv/*.csv")
ds = files.map(lambda file: tf.data.experimental.CsvDataset(file, record_defaults=[tf.float32, tf.float32, tf.float32], header=False))
ds = ds.map(columns_to_tensor)
for i,j in enumerate(ds):
  print(i, j.shape)
0 (5, 3)
1 (9, 3)
2 (5, 3)
3 (6, 3)
4 (8, 3)
5 (7, 3)
6 (6, 3)
7 (8, 3)
8 (8, 3)
9 (7, 3)
之后,只需调用 ds.batch 您想要的批量大小即可。