Google Cloud Speech:单词开始时间

Google Cloud Speech: word start time

我正在考虑使用 Google Cloud Speech 转换长格式的旁白音频文件,我需要知道音频文件中每个短语的开始时间。有没有办法用 Google Cloud Speech 做到这一点? 我目前正在使用 transcribe_async.py。 谢谢

Google 云语音无法做到这一点。如果该信息对您很重要,您可能需要查看其他 ASR 系统。我知道离线时,non-hosted 像 Kaldi and CMU Sphinx 这样的 ASR 系统会给你这个信息。我不知道托管 ASR 系统是否或哪些可以提供该信息。

您可以通过将 enableWordTimeOffsets 选项设置为 True 来获取(近似)开始和结束时间(从音轨的开头):https://cloud.google.com/speech/docs/async-time-offsets.

注意抄本的第一个单词的开始时间始终为 0,据我所知,每个单词的开始时间对应于前一个单词的结束时间(如果有停顿)。