backbone 在神经网络中是什么意思?

What does backbone mean in a neural network?

我对神经网络中“backbone”的含义感到困惑,尤其是在 the DeepLabv3+ paper 中。我做了一些研究,发现 backbone 可能意味着

the feature extraction part of a network

DeepLabv3+ 以 Xception 和 ResNet-101 作为其 backbone。但是,我不熟悉DeepLabv3+的整个结构,backbone指的是哪部分,哪些部分保持不变?

backbone 的一般描述或定义也将不胜感激。

TL;DR Backbone 不是深度学习中的通用技术术语。

(免责声明:是的,可能有一种特定的方法、层、工具等被称为“backbone”,但没有“backbone的神经网络”一般。)

如果作者在描述神经网络架构时使用“backbone”这个词,他们的意思是

  • 特征提取(“看到”输入的网络的一部分),但这种解释在该领域并不十分普遍:例如,在我看来,计算机视觉研究人员会使用该术语来表示特征提取,而自然语言处理研究人员不会。
  • 用非正式语言来说,这部分问题对整个方法至关重要。

在我的理解中,“backbone”指的是在DeepLab架构中使用的特征提取网络。该特征提取器用于将网络的输入编码为某种特征表示。 DeepLab 框架围绕这个特征提取器“包装”了一些功能。通过这样做,可以交换特征提取器,并可以选择一个模型以在准确性、效率等方面适合手头的任务。

对于 DeepLab,术语 backbone 可能指的是 ResNet、Xception、MobileNet 等模型

Backbone 是 DeepLab models/papers 中用来指代特征提取器网络的术语。这些特征提取器网络从输入图像计算特征,然后通过 DeepLab 模型的简单解码器模块对这些特征进行上采样以生成分段掩码。 DeepLab 模型的作者已经展示了不同特征提取器(主干)的性能,如 MobileNet、ResNet 和 Xception 网络。

CNN 用于提取特征。有几种 CNN 可用,例如 AlexNet、VGGNet 和 ResNet(骨干网)。这些网络主要用于对象 classification 任务,并在一些广泛使用的基准和数据集(如 ImageNet)上进行了评估。在图像 class 化或图像识别中,class 化器 class 化图像中的单个对象,为每个图像输出一个类别,并给出匹配的概率 class.而在物体检测中,模型必须能够识别单个图像中的多个物体,并提供识别物体位置的坐标。这表明对象的检测可能比图像的class化更困难。

来源和更多信息:https://link.springer.com/chapter/10.1007/978-3-030-51935-3_30