使用 librosa 将语音 A 转换为语音 B

Convert Voice A to Voice B using librosa

我是 librosavoice/sound 分析的新手。我在 SOgoogle 中搜索了这个直截了当的问题,但没有得到可以理解的答案。

假设有两个声音 AB。我想将 voice A 转换为 voice B

给定这两种声音,是否可以在 A 上做一些听起来像 B 的事情?

这种任务有时被称为“风格转换”,其中保持内容相同(口语)但通过风格改变表达方式(prosody, how they are spoken). Some keywords to search for are Voice Style Transfer, Speech Style Transfer, Audio Style Transfer, Voice Translation, Voice Cloning, Prosody Transfer. Here is an explanation of some of the approaches,来自 Kyle Kastner,一位从业者领域。

良好的语音风格迁移是一项相当艰巨的任务,过去几年有很多关于它的研究论文。许多使用神经网络的语音风格转换系统都是文本到语音 (TTS) / 语音合成模型的改编,例如 Tacotron、Tacotron 2 或 Wavenet。

Github 上有许多神经语音风格迁移论文的开源实现,但其中许多需要大量设置才能使用(下载数据集、模型、格式化输入等)。最受欢迎的替代方案之一是 Real Time Voice Cloning,它应该能够克隆具有 5 秒音频的语音。 另一个例子是 https://sforaidl.github.io/Neural-Voice-Cloning-With-Few-Samples/