我可以将 deeplab 微调到 tensorflow 中的自定义数据集吗？

Question

我想使用我自己的数据集为图像分割定制 deeplab 吗？这可以通过再培训实现吗？

Answer 1

是的，您应该遵循 these tutorials 之一，具体取决于您拥有的数据集格式，您可以从中了解如何将数据集转换为 TFrecord 格式，并训练模型。

如果你使用 Pascal voc 2012 格式，有一个完整的example here，包括训练、评估、可视化结果和导出模型的所有步骤。

Answer 2

在 Deeplab official tutorial page 上，训练命令如下所示：

python deeplab/train.py \
    --logtostderr \
    --training_number_of_steps=30000 \
    --train_split="train" \
    --model_variant="xception_65" \
    --atrous_rates=6 \
    --atrous_rates=12 \
    --atrous_rates=18 \
    --output_stride=16 \
    --decoder_output_stride=4 \
    --train_crop_size=513 \
    --train_crop_size=513 \
    --train_batch_size=1 \
    --dataset="pascal_voc_seg" \
    --tf_initial_checkpoint=${PATH_TO_INITIAL_CHECKPOINT} \
    --train_logdir=${PATH_TO_TRAIN_DIR} \
    --dataset_dir=${PATH_TO_DATASET}

通过更改 dataset_dir 和 dataset 以及 segmentation_dataset.py 中的几行，您可以在自己的数据集上进行训练。

dataset_dir：路径指向您的 tfrecord 文件夹。

在此文件夹中，您应该有 build_voc2012_data.py or other scripts in datasets 创建的 train-%05d-of-%05d.tfrecord 和 val-%05d-of-%05d.tfrecord。

相应地，如果要使用train.tfrecord进行训练，将train_split设置为train；如果你想对你的评估数据进行评估，请将 train_split 设置为 val。
dataset：任意自定义名称，如"donkey_monkey"

里面segmentation_dataset.py

为您自己的数据集创建 DatasetDescriptor：

_DONKEY_MONKEY_INFORMATION = DatasetDescriptor(
splits_to_sizes={
    'train': 1464,  # number of training examples in train data
    'trainval': 2913,  # number of examples for train+eval
    'val': 1449,  # number of eval examples 
    },
    num_classes=21, # note: should be number of class + background
    ignore_label=255,  # label pixels to ignore
)

更改以下代码（第 112 行）

_DATASETS_INFORMATION = {
    'cityscapes': _CITYSCAPES_INFORMATION,
    'pascal_voc_seg': _PASCAL_VOC_SEG_INFORMATION,
    'ade20k': _ADE20K_INFORMATION,
    'donkey_monkey': _DONKEY_MONKEY_INFORMATION, # newly added
 }

我可以将 deeplab 微调到 tensorflow 中的自定义数据集吗？

Can i finetune deeplab to a custom dataset in tensorflow?

image-segmentation

tensorflow

pre-trained-model

semantic-segmentation