创建文本到语音语音变体的最佳方式

Best way to create text to speech voice variant

我至少需要 3/4 种不同的 tts 语音，但不幸的是我只有一种语音。

这是因为我只有一个意大利语神经语音（Diego），其他都是标准语音，质量差很多。

最后的 objective 是为至少 3/4 人创建配音，我不能使用一些确切的配音。

出于这个原因，我喜欢创建一些由我拥有的唯一一种神经声音开始的变体，它给人的印象是其他人的声音，所有这些都不会显得不自然。

实际上我有 Adobe Audition、Audacity、Ircam Trax、ffmpeg，除此之外我还可以将 SSML 与 API（在本例中为 Microsoft Azure）一起使用。

不知道有什么效果，用到什么程度才不会损坏声音。

简而言之，如果我能获得更好的结果，我想问一下使用我拥有的软件或其他软件的最佳方法是什么。

谢谢！

您使用的是什么语言？如果你使用的是英语，我相信你能找到超过 3-4 个神经语音。有en-US, en-GB, en-CA, en-AU neural voices 和所有声音都很自然。

您还可以使用 SSML 调整音高，使声音听起来不同。

如果您想创建不同的声音，请尝试 customvoice.ai 使用您的语音数据（或您的语音天赋）。

或者，您正在寻找的 'variances' 是什么？