获取单词的时间戳(语音转文本)

Get Timestamps of words (Speech-To-Text)

我实际上将 Pocketsphinx 用于 Speech-To-Text 音频文件。
我使用这个命令:

pocketsphinx_continuous -logfn /dev/null -infile audio.wav > text.txt

我想知道是否有办法获取每个单词的时间戳。就这样:

startTime: 0.000s, endTime: 0.200s, word: hello
startTime: 0.250s, endTime: 0.500s, word: world

我没有必要使用 Pocketsphinx,但我需要一种免费且不受限制的方式来将语音文本转换为 Linux 上的音频文件。

感谢@NikolayShmyrev, 答案很简单,将 -time yes 添加到命令