词袋表示
Bag of Words Representation
我想为我的项目实现词袋表示。我使用图像的特征计算了图像视觉词的代码本,descriptors.Then,我使用 k-means 获得了聚类中心。对于词袋表示部分,要求您使用作为数据集一部分提供的手动标记段。在数据集中,每个图像有三个不同的二进制掩码。那些标记的段是二进制掩码吗?如果是这样,我将如何使用计算出的视觉词?
词袋方法提供图像或图像的一部分的简洁表示。该表示通常用作 class 化算法的输入,该算法用于估计图像数据所属的 class。通常,classifier 是一种监督学习方法,在训练过程中需要来自某些训练集的对(描述符、标签)。在您的情况下,描述符是训练集中图像数据的 BOW 表示。然后,在测试期间,您将新图像数据的 BOW 描述符提供给 classifier 以推断 class。
据我了解,您拥有三个不同的图像蒙版这一事实意味着您也拥有三个 classes。然后,每个掩码都会告诉您图像的哪一部分应该被视为属于特定 class 的图像数据。这是你的训练数据。
在该假设下,您应该提取图像中与每个蒙版对应的部分,计算这些图像部分的 BOW 表示(分别为每个蒙版),并使用带有蒙版编号的部分作为标签来训练class生成器。
这将允许您稍后使用,例如使用滑动 window 方法 class 将测试图像的部分确定为属于训练期间使用的 3 个 classes 之一。那将是检测问题的一个简单案例。
我不确定我是否正确理解了你的问题,但我希望这能帮助你前进一点。
我想为我的项目实现词袋表示。我使用图像的特征计算了图像视觉词的代码本,descriptors.Then,我使用 k-means 获得了聚类中心。对于词袋表示部分,要求您使用作为数据集一部分提供的手动标记段。在数据集中,每个图像有三个不同的二进制掩码。那些标记的段是二进制掩码吗?如果是这样,我将如何使用计算出的视觉词?
词袋方法提供图像或图像的一部分的简洁表示。该表示通常用作 class 化算法的输入,该算法用于估计图像数据所属的 class。通常,classifier 是一种监督学习方法,在训练过程中需要来自某些训练集的对(描述符、标签)。在您的情况下,描述符是训练集中图像数据的 BOW 表示。然后,在测试期间,您将新图像数据的 BOW 描述符提供给 classifier 以推断 class。
据我了解,您拥有三个不同的图像蒙版这一事实意味着您也拥有三个 classes。然后,每个掩码都会告诉您图像的哪一部分应该被视为属于特定 class 的图像数据。这是你的训练数据。
在该假设下,您应该提取图像中与每个蒙版对应的部分,计算这些图像部分的 BOW 表示(分别为每个蒙版),并使用带有蒙版编号的部分作为标签来训练class生成器。
这将允许您稍后使用,例如使用滑动 window 方法 class 将测试图像的部分确定为属于训练期间使用的 3 个 classes 之一。那将是检测问题的一个简单案例。
我不确定我是否正确理解了你的问题,但我希望这能帮助你前进一点。