为有声读物中的字幕创建时间戳

Create timestamps for subtitles in audibook

我想为书的句子添加时间戳,以适合相关的有声读物。 最好使用各种语言。

举个例子:
傲慢与偏见
text from gutenberg project
audio from Librivox

我的想法是找到一种语音识别工具,在句子上加上时间戳(第 1 步),然后使用 levenshtein 距离将杂乱的转录映射到原始文本(第 2 步)。

网站https://speechlogger.appspot.com/提供了第一个步骤的解决方案,但它在字符输出方面受到限制。理论上我可以使用网络自动化来完成工作,每分钟左右开始一个新的记录,但它真的很脏。

我在 R 中编写了第 2 步的脚本,并在我从 speechlogger 获得的样本上对其进行了测试,它工作得很好,但如果程序知道文本,这可能会大大改进,就像当你阅读以训练语音识别软件时一样。我不会通过先转录来使用我在这里的所有信息。

所以我的问题是,我可以使用哪些替代方法来为音频文件添加时间戳?有没有一种方法可以让识别引擎知道它应该识别什么,从而使我的流程更智能?

有许多为此开发的具有不同准确度的不错的软件包:

Gentle - Kaldi-based 对准器,作为服务工作。

旧的实现:

Aligner Demo in Sphinx4 - java

中的 CMUSphinx 工具包

SAIL align - HTK-based 校准器,相当多的 perl 脚本包。