如何准备 imagenet 数据集到 运行 resnet50(来自官方 Tensorflow Model Garden)训练

How to prepare imagenet dataset to run resnet50 (from official Tensorflow Model Garden) training

我想在我本地 GPU 服务器上的 imagenet2012 数据集上训练一个 resnet50 模型,完全遵循这个 Tensorflow 官方页面:https://github.com/tensorflow/models/tree/master/official/vision/image_classification#imagenet-preparation 但是,我不知道如何准确地准备 imagenet2012 训练和验证数据集,以便我可以 tar 像这样进行训练:

python3 classifier_trainer.py \
  --mode=train_and_eval \
  --model_type=resnet \
  --dataset=imagenet \
  --model_dir=$MODEL_DIR \
  --data_dir=$DATA_DIR ??? \ # ----------> HOW TO CONFIG THIS DIR IF I HAVE DOWNLOADED THE DATA??
  --config_file=configs/examples/resnet/imagenet/gpu.yaml \
  --params_override='runtime.num_gpus=$NUM_GPUS'

具体来说,我已将数据集下载为两个tar文件:ILSVRC2012_img_train.tarILSVRC2012_img_val.tar\myPath目录,按照说明:https://github.com/tensorflow/datasets/blob/master/docs/catalog/imagenet2012.md#imagenet2012 谁能告诉我准备数据集和设置配置的确切步骤(通过命令行参数或在 configs/examples/resnet/imagenet/gpu.yaml 中设置)。

PS1,我注意到训练脚本可以使用两种类型的数据集:1) using TFDS 2) using TFRecords. I have created the TFRecords dataset using the shell script on the bottom of the page,但仍然不知道如何设置配置。 TF 似乎推荐 TFDS,但我对 TFRecords 格式没问题,只要我能 运行 训练成功。目前,我已经拥有以下形式的训练和验证 TFRecords 文件:

${DATA_DIR}/train/train-00000-of-01024
${DATA_DIR}/train/train-00001-of-01024
 ...
${DATA_DIR}/train/train-01023-of-01024

${DATA_DIR}/validation/validation-00000-of-00128
S{DATA_DIR}/validation/validation-00001-of-00128
 ...
${DATA_DIR}/validation/validation-00127-of-00128

PS2:希望TF社区能为像我这样的初学者提供一个清晰的逐步准备imagenet数据集的指南。不胜感激!

你能得到 for:

的输出吗
python imagenet_to_gcs.py \
  --raw_data_dir=$IMAGENET_HOME \
  --local_scratch_dir=$IMAGENET_HOME/tf_records \
  --nogcs_upload

格式如下?

${DATA_DIR}/train-00000-of-01024
${DATA_DIR}/train-00001-of-01024
 ...
${DATA_DIR}/train-01023-of-01024

${DATA_DIR}/validation-00000-of-00128
S{DATA_DIR}/validation-00001-of-00128
 ...
${DATA_DIR}/validation-00127-of-00128

我已经阅读了很多执行您希望完成的任务的文章,它们遵循与您相似的步骤,但我找不到让您卡住的地方。如果您可以提供任何其他信息,例如您遇到的错误或其他信息,也许我可以更好地理解这个问题?