为有声读物中的字幕创建时间戳

Create timestamps for subtitles in audibook

我想为书的句子添加时间戳，以适合相关的有声读物。最好使用各种语言。

举个例子：
傲慢与偏见
text from gutenberg project
audio from Librivox

我的想法是找到一种语音识别工具，在句子上加上时间戳（第 1 步），然后使用 levenshtein 距离将杂乱的转录映射到原始文本（第 2 步）。

网站https://speechlogger.appspot.com/提供了第一个步骤的解决方案，但它在字符输出方面受到限制。理论上我可以使用网络自动化来完成工作，每分钟左右开始一个新的记录，但它真的很脏。

我在 R 中编写了第 2 步的脚本，并在我从 speechlogger 获得的样本上对其进行了测试，它工作得很好，但如果程序知道文本，这可能会大大改进，就像当你阅读以训练语音识别软件时一样。我不会通过先转录来使用我在这里的所有信息。

所以我的问题是，我可以使用哪些替代方法来为音频文件添加时间戳？有没有一种方法可以让识别引擎知道它应该识别什么，从而使我的流程更智能？

有许多为此开发的具有不同准确度的不错的软件包：

Gentle - Kaldi-based 对准器，作为服务工作。

旧的实现：

中的 CMUSphinx 工具包

SAIL align - HTK-based 校准器，相当多的 perl 脚本包。