如何使用网络摄像头集成人脸和物体识别？

How to integrate face and objects recognition using ip cameras?

打个比方，一个小区有200多台模拟摄像头连接到一个中央监控站，但是这些摄像头不具备人脸识别和物体识别功能。是否可以对这些摄像头进行人脸检测？这些相机有什么必须具备的先决条件吗？如何加载这些相机发送的图像并进行处理？

由于您的问题没有解决具体的编码问题，而是侧重于如何解决模式识别任务的一般概念，因此我想向您简要介绍一下必须考虑的步骤。正如您已经注意到的，我写了一些关于模式识别 (PR) 的文章。嗯，这就是你想要做的，除了实际上是步骤 2 的模式分析。

让我们从这样的 PR 管道开始：

1。信号采集

要分析信号，首先要有信号。收集这个信号是第一步，我告诉你一件事：这里没有什么可做的，但错误很多。对于您来说，当您想要从模拟摄像机访问视频信号时，首先要做的是 A/D 转换，这样您就可以获得数字信号。我对你们相机的视频质量没有任何印象，但请记住一件事：你输入特征提取 (FE) 工具的信号几乎肯定是每个 FE 步骤一个帧。所以检查帧的质量，而不是整个视频的质量，这可能会给您留下错误的印象。除此之外，您无法真正影响您的信号采集。我没有写任何关于如何从摄像机访问模拟视频的内容，只是因为没有关于他们环境的信息。

2。信号预处理

现在当你有一些数字信号时（当然你也可以用模拟信号来做，但为了简单起见，我在这里只介绍数字预处理），你想充分利用那个。这是什么意思？您收集（或观察）的每个信号 X 基本上都是真实（未损坏的）信号 S 和某种噪声 N:

的混合体

X = S + N

您理想中想要的是S。如果您设法减少噪音 N，您就会减少它对您拥有的整体信号 X 的贡献。因此，在预处理过程中，您经常会进行某种过滤。例如，对于图像，您可以在单个帧上应用中值滤波器来处理 Salt and Petter 噪声。但是信号处理可以有许多不同的方面，您必须针对您的特定任务阅读该主题。长话短说：您想通过减少噪声、伪影等来提高信号质量...

3。特征提取/分类

现在你有足够质量的信号（这是一个假设，我对你的特定设置一无所知）。你现在想做特征提取。这是什么？仅单个视频帧就包含大量信息。假设你有一个 720×576 像素的分辨率，那么你已经有超过 400.000 个值，这甚至不是一个好的图像质量。第一件事：并不是每个像素都对你想做的事情感兴趣。我现在只考虑人脸识别任务：你想要显示人脸的像素。所有其他像素对您来说都不那么有趣。你现在要做两件事，首先检测人脸，然后进一步处理以检测人。对于一般人脸检测，有不同的方法，例如模式匹配、纹理匹配或卷积神经网络 (CNN)。人脸检测成功后，要对人脸做什么呢？同样，您有不同的选择，例如特征脸、尺度不变特征变换 (SIFT) 或再次使用 CNN。

此外，您的分类算法需要训练。训练算法意味着针对特定目标优化其参数。在这里它变得非常棘手：您不仅需要样本数据（您可以从相机中收集这些数据），还需要标签。对于人脸检测，您可以获得一些不错的预训练算法，这些算法也应该适用于您的数据。然而，对于人脸识别，您需要来自每个您想要检测的人的样本。你必须注释它们。您将需要大量它们，最好使用您将用于识别的相机拍摄。同样，有预训练模型，但您仍然需要向这些预训练模型展示您想要识别的新面孔。

这整个管道假设您有足够质量的输入信号，我不确定。如果是这样，它会为您提供有关完成任务所需步骤的快速指南。如果第一步成功了，那么第二步就不是什么大事了。第 3 步将是最具挑战性的，因为您必须有一些训练数据。

我没有写任何关于不同国家/地区隐私法的内容。我只是希望您尊重您可能面临的任何限制！

如何使用网络摄像头集成人脸和物体识别？

How to integrate face and objects recognition using ip cameras?

camera

face-recognition

object-recognition

1。信号采集

2。信号预处理

3。特征提取/分类