IBM Watson 视觉识别。是否可以从特定对象获取 X、Y 坐标?

IBM Watson Visual recognition. Is it possible to get X,Y coordinates from an specific object?

我从一个大学项目开始,我正在寻找一种工具来帮助我从图像中的特定对象(我不是在谈论文本)中找到以像素为单位的坐标(X,Y) ).我想知道 IBM Watson 视觉识别是否可以帮助我实现这一目标,或者您是否知道任何其他可以更好地工作的工具。

谢谢。

您可以"kind of"使用 Watson 视觉识别来做到这一点。首先,您需要训练一个自定义分类器来 "find" 您正在寻找的对象。完成此操作后,您就完成了一半。

第二部分涉及拍摄要在其中找到对象的图像,并将其分成四个部分(左上、左下、右上、右下)。然后,您在图像的每个部分中搜索目标对象。如果您在这些象限之一中找到它,则将该象限分成四个部分,然后在图像的每个部分中搜索目标对象。如果您继续并递归地执行此操作(并跟踪每个象限和子象限的像素边界),最终您将缩小要搜索的对象的范围。

现在你应该也想做其他搜索算法了。考虑目标对象位于图像中心的情况——它不会出现在任何象限中。如果你的对象恰好跨越一个象限边界,你将无法获得准确的位置,因此需要多种搜索模式,但策略和方法是相同的。

您也可以采用混合 "cloud-edge" 方法,如下所述:https://medium.com/unsupervised-coding/dont-miss-your-target-object-detection-with-tensorflow-and-watson-488e24226ef3

它在本地使用 TensorFlow 模型 运行 来检测区域,然后使用 Watson VR 说出每个区域中的内容。这结合了 TensorFlow 的灵活性和 Watson VR 对许多(数万种)不同类型对象进行分类的能力。