如何从 h5 文件中提取图像和标题数据集?

How can I extract an image and a caption dataset from a h5 file?

我想使用具有 2 个 h5 格式文件的 FashionGen 数据集用于训练和验证数据。 h5文件的数据集列表是这样的: 指数 index_2 input_brand input_category input_composition input_concat_description input_department input_description input_gender input_image input_msrpUSD input_name input_pose input_productID input_season input_subcategory

我只需要“Input_image”和“Input_description”数据集。你介意帮帮我吗?

详细信息取决于要创建的数据集 dtypeshape 以及 Python 对象。此代码将帮助您入门。有关详细信息,请查看 h5py 文档。 h5py Quick Start Guide。注意:数据集和组名称区分大小写。请务必验证它们是 "Input_image" 还是 "input_image"

with h5py.File(filename,'r') as h5f:
    # create NumPy array from image dataset:
    image_arr = h5f['input_image'][:]
    # create NumPy array from description dataset:
    descr_arr = h5f['input_description'][:] 

注意:如果数据集太大而无法放入内存,您可以使用 h5py 数据集对象并像引用 NumPy 数组一样进行引用。代码非常相似。见下文:

with h5py.File(filename,'r') as h5f:
    # create h5py object of images dataset:
    image_ds = h5f['input_image']
    # create NumPy object of description dataset:
    descr_ds = h5f['input_description']