处理来自 Youtube 的实时视频以将语音转为文本

Processing a live video from Youtube for speech to text

我想将 Google Cloud Speech to Text API 应用于 Youtube 直播视频，以便转录文本并应用一些功能来突出显示转录文本的某些部分。

我一直在阅读 Google Cloud Speech to Text API 和 Youtube API，但我没有找到如何执行此操作的适当示例。

所有示例都涉及其他输入，例如处理非实时视频（之前将 youtube 流转换为 avi 等视频文件）或连接到设备的麦克风。

你知道有没有办法做到这一点？你有任何关于如何解决这个问题的例子吗？

在 Google 语音转文本 API 中，有一种方法。它叫做 "StreamingRecognize." 您需要将流提供给它，它会让您返回转录。您可以非常广泛地自定义它。

您只需要找到一种可靠地从 YouTube 获取流的方法。