在 pascal voc 中注释图像 xml

Annotate images in pascal voc xml

我需要一个工具来用矩形边界框注释图像。输出将采用 pascal voc xml 格式。注释和图像将成为卷积神经网络用于进行对象检测的训练数据集的一部分。我会自己手动标注图片。

我考虑过以下工具,但它们不支持 pascal-voc。

Labelme, Sloth, Pilab, No name

是否有注释工具可以节省我的时间?

似乎没有可以输出您想要的格式的工具。您可能想要使用以不同格式输出 xml 的工具,并对其进行转换。不理想,但可能会奏效。

例如,您可以构建一个 xslt 以将工具的 xml 输出转换为 Pascal VOC xml 标准。

此 python 代码片段会将 Sloth json 转换为 pascal voc xml。

  def make_anno():
    zind = 0
    for z in data:
        print zind
        filename = data[zind]["filename"]
        print filename
        head, tail = os.path.split(filename)
        basename, file_extension = os.path.splitext(tail)    
        f = open(basename + '.xml','w') 
        line = "<annotation>" + '\n'
        f.write(line)
        line = '\t\t<folder>' + "folder" + '</folder>' + '\n'
        f.write(line)
        line = '\t\t<filename>' + tail + '</filename>' + '\n'
        f.write(line)
        line = '\t\t<source>\n\t\t<database>Source</database>\n\t</source>\n'
        f.write(line)
        im=Image.open('/home/location/VOCdevkit/newdataset/img/' + tail)
        (width, height) = im.size
        line = '\t<size>\n\t\t<width>'+ str(width) + '</width>\n\t\t<height>' + str(height) + '</height>\n\t'
        line += '\t<depth>Unspecified</depth>\n\t</size>'
        f.write(line)
        line = '\n\t<segmented>Unspecified</segmented>'
        f.write(line)
        ind = 0
        for i in data[zind]["annotations"]:
            line = '\n\t<object>'
            line += '\n\t\t<name>Name</name>\n\t\t<pose>Unspecified</pose>'
            line += '\n\t\t<truncated>Unspecified</truncated>\n\t\t<difficult>Unspecified</difficult>'
            xmin = (data[zind]["annotations"][ind]["x"])
            line += '\n\t\t<bndbox>\n\t\t\t<xmin>' + str(xmin) + '</xmin>'
            ymin = (data[zind]["annotations"][ind]["y"])
            line += '\n\t\t\t<ymin>' + str(ymin) + '</ymin>'
            width = (data[zind]["annotations"][ind]["width"])
            height = (data[zind]["annotations"][ind]["height"])
            xmax = xmin + width
            ymax = ymin + height
            line += '\n\t\t\t<xmax>' + str(xmax) + '</xmax>'
            line += '\n\t\t\t<ymax>' + str(ymax) + '</ymax>'
            line += '\n\t\t</bndbox>'
            line += '\n\t</object>'     
            f.write(line)
            ind +=1
            f.close()
        zind +=1

请参考我的github: https://github.com/tzutalin/ImageNet_Utils

如何注释图像: https://www.youtube.com/watch?v=p0nR2YsCY_U