处理来自 Youtube 的实时视频以将语音转为文本

Processing a live video from Youtube for speech to text

我想将 Google Cloud Speech to Text API 应用于 Youtube 直播视频,以便转录文本并应用一些功能来突出显示转录文本的某些部分。

我一直在阅读 Google Cloud Speech to Text API 和 Youtube API,但我没有找到如何执行此操作的适当示例。

所有示例都涉及其他输入,例如处理非实时视频(之前将 youtube 流转换为 avi 等视频文件)或连接到设备的麦克风。

你知道有没有办法做到这一点?你有任何关于如何解决这个问题的例子吗?

在 Google 语音转文本 API 中,有一种方法。它叫做 "StreamingRecognize." 您需要将流提供给它,它会让您返回转录。您可以非常广泛地自定义它。

https://cloud.google.com/speech-to-text/docs/streaming-recognize#speech-streaming-recognize-python

您只需要找到一种可靠地从 YouTube 获取流的方法。