如何使用 caffe 训练 CNN 区分 HTML 个对象（前景）和网页截图中的背景？

Question

我正在研究一个问题，我正在尝试训练神经网络来检测网页给定快照中的各种 html 对象，例如文本框、单选按钮、按钮和下拉列表。我正在向我的 CNN 提供通过对 1500 张图像（训练集）进行滑动 window 操作而生成的补丁，因为 training.The 标签集是一个 5 通道矩阵，用于 5 class 个对象（包括背景即标记为 class 0，其他对象区域标记为 class 1,2,..4).

我尝试使用 Caffe 在此训练数据集上应用 Con-Decon 架构。但恕我直言，发生的问题是实际输出中存在对 class 0 的强烈偏见，因为我的滑动 window 训练中的大部分区域都是背景。因此，class将实际输出中的所有像素化为背景的Class 0，无法检测Class标签1,2的其他HTML对象， ..4 关于我提供给网络的测试图像。

知道如何解决这个问题吗？

Answer 1

这个问题也存在于许多现实世界的数据集中。

解决它的一种方法是将非背景数据 (类 1,2,3...) 呈现给神经网络的次数多于呈现背景数据的次数。这可以通过人为复制样本较少的数据来完成。

Answer 2

您还可以设置：

ignore_label: 0

这可能会有帮助。

如何使用 caffe 训练 CNN 区分 HTML 个对象（前景）和网页截图中的背景？

How to train a CNN to differentiate between HTML objects(foreground) and the background in a screenshot of a webpage using caffe?

convolution

neural-network

deep-learning

caffe

conv-neural-network