如何使用 caffe 训练 CNN 区分 HTML 个对象(前景)和网页截图中的背景?

How to train a CNN to differentiate between HTML objects(foreground) and the background in a screenshot of a webpage using caffe?

我正在研究一个问题,我正在尝试训练神经网络来检测网页给定快照中的各种 html 对象,例如文本框、单选按钮、按钮和下拉列表。我正在向我的 CNN 提供通过对 1500 张图像(训练集)进行滑动 window 操作而生成的补丁,因为 training.The 标签集是一个 5 通道矩阵,用于 5 class 个对象(包括背景即标记为 class 0,其他对象区域标记为 class 1,2,..4).

我尝试使用 Caffe 在此训练数据集上应用 Con-Decon 架构。但恕我直言,发生的问题是实际输出中存在对 class 0 的强烈偏见,因为我的滑动 window 训练中的大部分区域都是背景。因此,class将实际输出中的所有像素化为背景的Class 0,无法检测Class标签1,2的其他HTML对象, ..4 关于我提供给网络的测试图像。

知道如何解决这个问题吗?

这个问题也存在于许多现实世界的数据集中。

解决它的一种方法是将非背景数据 (类 1,2,3...) 呈现给神经网络的次数多于呈现背景数据的次数。这可以通过人为复制样本较少的数据来完成。

您还可以设置:

ignore_label: 0 

这可能会有帮助。