Google 机器学习套件的自拍分割不佳

Poor selfie segmentation with Google ML Kit

我正在使用 Google ML Kit 进行自拍分割 (https://developers.google.com/ml-kit/vision/selfie-segmentation)。但是,我得到的输出非常差 -

初始图像:

带有叠加层的分割图像:观察女人的头发是如何标记为粉红色的,而她腿附近的健身器材和周围环境是如何标记为非粉红色的。甚至她的手都被标记为粉红色(意味着它是背景)。

当它叠加在另一个图像上时,为了创建背景去除效果,它看起来很糟糕

ML Kit 返回的分割掩码对上述所有非粉红色区域的置信度为 1.0,这意味着它绝对确定非粉红色区域是人的一部分!!

我在多张图片中都看到了这一点,而不仅仅是这一张。事实上,图像分割器的性能(置信度)很差。

问题是 - 有没有办法改进它,也许通过提供 different/better 模型?如果我使用像 PixelLib 这样的东西,分割会更好,尽管库的性能不是低延迟,因此不能 运行 在移动设备上。

任何 pointers/help 对此将不胜感激。

期望轻量级 real-time CPU-based 自拍模型能够为相当复杂且有点棘手的场景(姿势、黑色背景和装备)。

Official example 强调复杂环境可能会成为问题的事实。

处理场景的唯一“简单”方法是使用深度估计。刚刚用一个非常复杂的模型做了一个快速测试:

结果离可用还很远(至少以完全自动化的方式)。 还有其他几个选项:

  • 创建自定义更多 sport-oriented 模型,在适当的数据集上训练
  • 使用更重的型号(现代手机功能强大)
  • 使用一些可靠的姿态估计来确保特定场景 selfie-compatible