图像每像素场景标签输出问题(使用 FCN-32s 语义分割)

Image per-pixel Scene labeling output issue (using FCN-32s Semantic Segmentation)

我正在寻找一种方法,在给定输入图像和神经网络的情况下,它将为图像中的每个像素(天空、草地、山脉、人、汽车等)输出带标签的 class ).

我已经设置了 Caffe(未来分支)并成功 运行 FCN-32s Fully Convolutional Semantic Segmentation on PASCAL-Context 模型。但是,我无法用它生成清晰的标记图像。

形象化我的问题的图像:
输入图像

基本事实

我的结果:

这可能是分辨率问题。知道我哪里出错了吗?

似乎 32s 模型取得了很大的进步,因此在粗糙的分辨率下工作。你能试试 8s model 吗,它似乎执行较少的分辨率降低。
查看 J Long, E Shelhamer, T Darrell Fully Convolutional Networks for Semantic Segmentation, CVPR 2015(尤其是图 4),似乎 32s 模型不是为捕获分割的精细细节而设计的。