基于用户输入的 TTS 连接

TTS concatenation based on user input

问候 Whosebug 社区,

是否可以获取用户所说或输入的内容(如字母 1 - 9),而不是文本到语音引擎将数字读回给用户,而是播放预先录制的音频剪辑,这样听起来就像我们的画外音人而不是机器人?

你能根据用户输入的内容动态地做到这一点吗?

我真正想要的是在如何开始解决这个问题的正确方向上的刺激。

可以。很久以前,我编写了逻辑,它采用所需的短语和可用剪辑列表来查找可用于 assemble 音频的最大片段(剪辑通常有多个短语)。它往往听起来很不稳定,但如果您有足够的预先录制的音频,这是可能的。在我的案例中,内容处于利基市场,只需几千条录音就可以达到 95% 的覆盖率。

最后,这只是查找剪辑的基本搜索逻辑。如果您在单词级别执行此操作,您可以只用单词命名每个剪辑并拆分输入并生成音频标签。 <audio src='the.wav'/><audio src='quick.wav'/><audio src='brown.wav'/><audio src='fox.wav'/>...