创建文本到语音语音变体的最佳方式

Best way to create text to speech voice variant

我至少需要 3/4 种不同的 tts 语音,但不幸的是我只有一种语音。

这是因为我只有一个意大利语神经语音(Diego),其他都是标准语音,质量差很多。

最后的 objective 是为至少 3/4 人创建配音,我不能使用一些确切的配音。

出于这个原因,我喜欢创建一些由我拥有的唯一一种神经声音开始的变体,它给人的印象是其他人的声音,所有这些都不会显得不自然。

实际上我有 Adob​​e Audition、Audacity、Ircam Trax、ffmpeg,除此之外我还可以将 SSML 与 API(在本例中为 Microsoft Azure)一起使用。

不知道有什么效果,用到什么程度才不会损坏声音。

简而言之,如果我能获得更好的结果,我想问一下使用我拥有的软件或其他软件的最佳方法是什么。

谢谢!

您使用的是什么语言?如果你使用的是英语,我相信你能找到超过 3-4 个神经语音。有en-US, en-GB, en-CA, en-AU neural voices 和所有声音都很自然。

您还可以使用 SSML 调整音高,使声音听起来不同。

如果您想创建不同的声音,请尝试 customvoice.ai 使用您的语音数据(或您的语音天赋)。

或者,您正在寻找的 'variances' 是什么?