与大量图像相关的 Watson Visual Recognition 相似性搜索 API

similarity search API of Watson Visual Recognition related to bulk volume of images

我们的客户要求使用 Watson Visual Recognition 在集合中搜索相似图像。该文档提到每个集合可以包含 100 万张图像。因此,我有以下问题:

a) 图片的最大尺寸是多少?

b) 每张图片上传最多需要 1 秒,标准计划每天限制 25000 张图片。那么,只能将25k张图片加到collection/day吗?

c) 客户有大约 200 万张图像。我们怎样才能更快地上传图片?

d) 是否有针对大批量的单独计划?

此信息来自以下 url 处的 Visual Recognition 文档: https://www.ibm.com/watson/developercloud/doc/visual-recognition/customizing.html

大小限制
训练调用和数据有大小限制:

  • 该服务最多接受 10,000 张图像或每个 .zip 100 MB 文件。
  • 该服务要求每个 .zip 文件至少包含 10 张图像。
  • 该服务每次训练调用最多接受 256 MB。
  • 推荐的最小图像尺寸为 32X32 像素。

训练好Anchor的指南link
API 不强制执行以下准则。但是,当训练数据符合它们时,服务往往会表现得更好:

  • 建议每个 .zip 文件中至少包含 50 张图像,因为少于 50 张图像会降低经过训练的分类器的质量。
  • 如果训练数据的质量和内容相同,则在更多图像上训练的分类器通常比在较少图像上训练的分类器更准确。在更多图像上训练分类器的好处在大约 5000 张图像时稳定下来,这可能需要一段时间来处理。您可以在超过 5000 张图像上训练分类器,但它可能不会显着提高分类器的准确性。
  • 每个 .zip 文件总共上传 150-200 张图片,可以在训练时间和分类器准确性提高之间取得最佳平衡。超过 200 张图像会增加时间,并且确实会增加准确性,但会减少 return 秒所花费的时间。
  • 在每个示例文件中包含大致相同数量的图像。包括不相等数量的图像会导致训练分类器的质量下降。
  • 您的自定义分类器的准确性可能会受到您提供的用于训练它的图像种类的影响。提供与您计划分析的图像相似的示例图像。例如,如果您正在训练分类器 "tiger",如果您仅提供移动设备 phone 在动物园拍摄的老虎图像来训练分类器,那么您的分类器可能不太准确,但您想要测试专业摄影师拍摄的野生老虎图像分类器。

高容量分类锚点指南link

如果要对多张图片进行分类,一次提交一张图片可能会花费很长时间。您可以通过以下方式最大限度地提高服务的效率和性能:

  • 调整图像的宽度或高度不超过 320 像素。图片不需要高分辨率。
  • 以压缩 (.zip) 文件形式批量提交图像。
  • 在 classifier_ids 参数中仅指定您想要结果的分类器。如果您没有为此参数指定值,该服务将根据默认分类器对图像进行分类,并且需要更长的时间才能 return 做出响应。

Ravi,我看到你也在 developerWorks 上发布了你的问题 - 请在此处查看我的回答:https://developer.ibm.com/answers/questions/379227/similarity-search-api-of-watson-visual-recognition/