Speech-to-Text 和 Video Intelligence SPEECH_TRANSCRIPTION 有何关联?
How are Speech-to-Text and Video Intelligence SPEECH_TRANSCRIPTION related?
我的目标是使用语音到文本模型处理多个视频。
Google 令人困惑的是有两种产品似乎做同样的事情。
这些产品之间的主要区别是什么?
Google 云语音转文本:https://cloud.google.com/speech-to-text/docs/basics
- Speech-to-Text 具有用于解释音频的“增强视频”模型。
Google 视频情报:https://cloud.google.com/video-intelligence/docs/feature-speech-transcription
- VI 可以选择请求
SPEECH_TRANSCRIPTION
功能
两者的主要区别在于使用的输入。 Speech to Text API 仅接受音频输入,而 Video Intelligence 接受视频输入。
如您的问题 “Speech to Text 具有增强视频模型”所述,这意味着它具有旨在转录源自视频文件的音频的模型。这意味着原始文件是视频,然后转换为音频。如此 tutorial 中所示,视频在转录之前已转换为音频。
如果您想将音频内容直接转录为文本,我建议使用 Video Intelligence API。您可以使用 Video Intelligence API.
关注此 tutorial on how to transcribe text
我的目标是使用语音到文本模型处理多个视频。
Google 令人困惑的是有两种产品似乎做同样的事情。
这些产品之间的主要区别是什么?
Google 云语音转文本:https://cloud.google.com/speech-to-text/docs/basics
- Speech-to-Text 具有用于解释音频的“增强视频”模型。
Google 视频情报:https://cloud.google.com/video-intelligence/docs/feature-speech-transcription
- VI 可以选择请求
SPEECH_TRANSCRIPTION
功能
- VI 可以选择请求
两者的主要区别在于使用的输入。 Speech to Text API 仅接受音频输入,而 Video Intelligence 接受视频输入。
如您的问题 “Speech to Text 具有增强视频模型”所述,这意味着它具有旨在转录源自视频文件的音频的模型。这意味着原始文件是视频,然后转换为音频。如此 tutorial 中所示,视频在转录之前已转换为音频。
如果您想将音频内容直接转录为文本,我建议使用 Video Intelligence API。您可以使用 Video Intelligence API.
关注此 tutorial on how to transcribe text