如何为深度学习训练数据集创建地面实况边界框?
How are ground truth bounding boxes created for a deep learning training dataset?
我正在做一个项目,我想在其中使用 mask RCNN 来识别一组图像中的对象。但是,我很难理解如何为地面实况数据创建边界框(编码像素)。任何人都可以指出正确的方向或向我进一步解释吗?
边界框通常是手工标记的。大多数深度学习人员使用单独的应用程序进行标记。我相信这个包很受欢迎:
https://github.com/AlexeyAB/Yolo_mark
我开发了自己的标记 RoR 解决方案,因为它有助于将工作分配给几个人。如果您想看一下,存储库是开源的:
https://github.com/asfarley/imgclass
我认为称其为 'encoded pixels' 有点误导。边界框是一种带标签的矩形数据类型,这意味着它们完全由类型(汽车、公共汽车、卡车)和矩形角的 (x,y) 坐标定义。
用于定义边界框的软件通常包含一个图像显示元素,以及允许用户在 UI 上拖动边界框的功能。我的应用程序使用单选按钮列表 select 对象类型(汽车、公共汽车等);然后用户绘制一个边界框。
完全标记图像的结果是一个文本文件,其中每一行代表一个边界框。您应该查看训练算法的库文档,以准确了解输入边界框所需的格式。
在我自己的应用程序中,我开发了一些功能来比较不同用户的边界框。在任何大型 ML 工作中,您可能会遇到一些错误标记的图像,因此您确实需要一个工具来识别它,因为它会严重降低您的结果。
我正在做一个项目,我想在其中使用 mask RCNN 来识别一组图像中的对象。但是,我很难理解如何为地面实况数据创建边界框(编码像素)。任何人都可以指出正确的方向或向我进一步解释吗?
边界框通常是手工标记的。大多数深度学习人员使用单独的应用程序进行标记。我相信这个包很受欢迎:
https://github.com/AlexeyAB/Yolo_mark
我开发了自己的标记 RoR 解决方案,因为它有助于将工作分配给几个人。如果您想看一下,存储库是开源的:
https://github.com/asfarley/imgclass
我认为称其为 'encoded pixels' 有点误导。边界框是一种带标签的矩形数据类型,这意味着它们完全由类型(汽车、公共汽车、卡车)和矩形角的 (x,y) 坐标定义。
用于定义边界框的软件通常包含一个图像显示元素,以及允许用户在 UI 上拖动边界框的功能。我的应用程序使用单选按钮列表 select 对象类型(汽车、公共汽车等);然后用户绘制一个边界框。
完全标记图像的结果是一个文本文件,其中每一行代表一个边界框。您应该查看训练算法的库文档,以准确了解输入边界框所需的格式。
在我自己的应用程序中,我开发了一些功能来比较不同用户的边界框。在任何大型 ML 工作中,您可能会遇到一些错误标记的图像,因此您确实需要一个工具来识别它,因为它会严重降低您的结果。