基于用户输入的 TTS 连接

TTS concatenation based on user input

vxml

问候 Whosebug 社区，

是否可以获取用户所说或输入的内容（如字母 1 - 9），而不是文本到语音引擎将数字读回给用户，而是播放预先录制的音频剪辑，这样听起来就像我们的画外音人而不是机器人？

你能根据用户输入的内容动态地做到这一点吗？

我真正想要的是在如何开始解决这个问题的正确方向上的刺激。

可以。很久以前，我编写了逻辑，它采用所需的短语和可用剪辑列表来查找可用于 assemble 音频的最大片段（剪辑通常有多个短语）。它往往听起来很不稳定，但如果您有足够的预先录制的音频，这是可能的。在我的案例中，内容处于利基市场，只需几千条录音就可以达到 95% 的覆盖率。

最后，这只是查找剪辑的基本搜索逻辑。如果您在单词级别执行此操作，您可以只用单词命名每个剪辑并拆分输入并生成音频标签。 <audio src='the.wav'/><audio src='quick.wav'/><audio src='brown.wav'/><audio src='fox.wav'/>...

基于用户输入的 TTS 连接

TTS concatenation based on user input

vxml