如何使用网络摄像头集成人脸和物体识别?

How to integrate face and objects recognition using ip cameras?

打个比方,一个小区有200多台模拟摄像头连接到一个中央监控站,但是这些摄像头不具备人脸识别和物体识别功能。是否可以对这些摄像头进行人脸检测?这些相机有什么必须具备的先决条件吗?如何加载这些相机发送的图像并进行处理?

由于您的问题没有解决具体的编码问题,而是侧重于如何解决模式识别任务的一般概念,因此我想向您简要介绍一下必须考虑的步骤。正如您已经注意到的,我写了一些关于模式识别 (PR) 的文章。嗯,这就是你想要做的,除了实际上是步骤 2 的模式分析。

让我们从这样的 PR 管道开始:

1。信号采集

要分析信号,首先要有信号。收集这个信号是第一步,我告诉你一件事:这里没有什么可做的,但错误很多。对于您来说,当您想要从模拟摄像机访问视频信号时,首先要做的是 A/D 转换,这样您就可以获得数字信号。我对你们相机的视频质量没有任何印象,但请记住一件事:你输入特征提取 (FE) 工具的信号几乎肯定是每个 FE 步骤一个帧。所以检查帧的质量,而不是整个视频的质量,这可能会给您留下错误的印象。除此之外,您无法真正影响您的信号采集。我没有写任何关于如何从摄像机访问模拟视频的内容,只是因为没有关于他们环境的信息。

2。信号预处理

现在当你有一些数字信号时(当然你也可以用模拟信号来做,但为了简单起见,我在这里只介绍数字预处理),你想充分利用那个。这是什么意思?您收集(或观察)的每个信号 X 基本上都是真实(未损坏的)信号 S 和某种噪声 N:

的混合体

X = S + N

您理想中想要的是S。如果您设法减少噪音 N,您就会减少它对您拥有的整体信号 X 的贡献。因此,在预处理过程中,您经常会进行某种过滤。例如,对于图像,您可以在单个帧上应用中值滤波器来处理 Salt and Petter 噪声。但是信号处理可以有许多不同的方面,您必须针对您的特定任务阅读该主题。长话短说:您想通过减少噪声、伪影等来提高信号质量...

3。特征提取/分类

现在你有足够质量的信号(这是一个假设,我对你的特定设置一无所知)。你现在想做特征提取。这是什么?仅单个视频帧就包含大量信息。假设你有一个 720×576 像素的分辨率,那么你已经有超过 400.000 个值,这甚至不是一个好的图像质量。第一件事:并不是每个像素都对你想做的事情感兴趣。我现在只考虑人脸识别任务:你想要显示人脸的像素。所有其他像素对您来说都不那么有趣。你现在要做两件事,首先检测人脸,然后进一步处理以检测人。对于一般人脸检测,有不同的方法,例如模式匹配、纹理匹配或卷积神经网络 (CNN)。人脸检测成功后,要对人脸做什么呢?同样,您有不同的选择,例如特征脸、尺度不变特征变换 (SIFT) 或再次使用 CNN。

此外,您的分类算法需要训练。训练算法意味着针对特定目标优化其参数。在这里它变得非常棘手:您不仅需要样本数据(您可以从相机中收集这些数据),还需要标签。对于人脸检测,您可以获得一些不错的预训练算法,这些算法也应该适用于您的数据。然而,对于人脸识别,您需要来自每个您想要检测的人的样本。你必须注释它们。您将需要大量它们,最好使用您将用于识别的相机拍摄。同样,有预训练模型,但您仍然需要向这些预训练模型展示您想要识别的新面孔。


这整个管道假设您有足够质量的输入信号,我不确定。如果是这样,它会为您提供有关完成任务所需步骤的快速指南。如果第一步成功了,那么第二步就不是什么大事了。第 3 步将是最具挑战性的,因为您必须有一些训练数据。

我没有写任何关于不同国家/地区隐私法的内容。我只是希望您尊重您可能面临的任何限制!