使用 OpenVINO 进行语音识别

Speech Recongnition Using OpenVINO

我想实施一个 python 项目，其中输入为 .mp4 文件，输出为视频的文字记录或字幕。约束是使用 OpenVINO。我该怎么做？

mp4 是一个容器。我相信当前的 OpenVINO 演讲 demo/samples 使用 wav 文件，因为这是训练模型的目的。

如果您可以使用工具将 mp4 容器中的 mp3 或音频转换为 wav 格式，那也许可行。

speech rec demo