Speech-to-Text 和 Video Intelligence SPEECH_TRANSCRIPTION 有何关联？

How are Speech-to-Text and Video Intelligence SPEECH_TRANSCRIPTION related?

我的目标是使用语音到文本模型处理多个视频。

Google 令人困惑的是有两种产品似乎做同样的事情。

这些产品之间的主要区别是什么？

Google 云语音转文本：https://cloud.google.com/speech-to-text/docs/basics
- Speech-to-Text 具有用于解释音频的“增强视频”模型。
Google 视频情报：https://cloud.google.com/video-intelligence/docs/feature-speech-transcription
- VI 可以选择请求 SPEECH_TRANSCRIPTION 功能

两者的主要区别在于使用的输入。 Speech to Text API 仅接受音频输入，而 Video Intelligence 接受视频输入。

如您的问题 “Speech to Text 具有增强视频模型”所述，这意味着它具有旨在转录源自视频文件的音频的模型。这意味着原始文件是视频，然后转换为音频。如此 tutorial 中所示，视频在转录之前已转换为音频。

如果您想将音频内容直接转录为文本，我建议使用 Video Intelligence API。您可以使用 Video Intelligence API.