Alexa 是如何编程唱歌的?
How is Alexa programmed to sing?
如果你说“Alexa,为我唱歌”,她会从 几首 用她的声音创作的歌曲中选择一首。这些歌曲的声音一定是以某种方式创造出来的。
起初,我认为 SSML 会提供执行此操作所需的工具,尤其是 <prosody>
tag,它具有 pitch
和 rate
(持续时间)的参数。
我想也许唱歌的每个音节都可以用<phoneme>
指定它的发音,用<prosody>
指定它的音高和持续时间,中间有<break>
标签:
<speak>
<prosody rate="20%">
<phoneme alphabet="x-sampa" ph="U">oo</phoneme>
<break strength="none" />
</prosody>
<prosody rate="20%" pitch="+50%">
<phoneme alphabet="x-sampa" ph="U">oo</phoneme>
<break strength="none" />
</prosody>
<prosody rate="20%">
<phoneme alphabet="x-sampa" ph="U">oo</phoneme>
</prosody>
</speak>
然而,在执行时,Alexa 会应用她内置的音调变化(听起来像真人),因此音调并不平坦。例如,这些“哦”的声音(上图)都有一个降调。 (即使明确指定了“不间断”,它们在音素之间也有明显的间断。)
那么,听到所有这些歌曲的 Alexa 声音是如何被编程的? 是通过目前仅供亚马逊开发者使用的工具吗?
同样让我感到困惑的是,我显然是互联网上唯一一个问这个问题的人(基于 Whosebug 中的零结果,google,等等),尤其是在游戏的后期。不是有很多音乐家愿意让 Alexa 唱他们想唱的任何东西吗?
编辑:伙计们,我认为这是常识,但 there is no human voice actor 落后于 Alexa。她的声音完全是电脑合成的。
我的预测要么是像自然语言处理这样非常奇特的东西,要么是那些台词附近的东西,AI/ML 或者他们只是让配音演员唱出一些东西或唱出特定的音调,然后把它们剪在一起,我不知道我有一个 Alexa,但我确实有一个 HomePod mini 和一个 iPhone 以及它发音我们当地歌手名字的方式,例如“sidhu moosewala”或“amrit maan”(离题但仍然相关)我相信他们只是削减并以“干净”和“流畅”的方式组合单词。
Alexa 的声音完全由计算机生成,歌曲也是如此。正在研究生成歌唱合成器模型 (#1 and #2)。
这是 Popgun Labs 关于 how they make their AI sing 的视频。虽然我无法找到亚马逊和 Google 是如何做到这一点的,但我猜它会是类似的东西。
编辑:我之前的回答是基于一个扩展页面,得出了不正确的结论。
也许她的声音只是自动调谐。
当然,音高变换工具可以从任何音频源强制调整任何所需的音调,我认为此类工具也可以强制更改持续时间。
如果你说“Alexa,为我唱歌”,她会从 几首 用她的声音创作的歌曲中选择一首。这些歌曲的声音一定是以某种方式创造出来的。
起初,我认为 SSML 会提供执行此操作所需的工具,尤其是 <prosody>
tag,它具有 pitch
和 rate
(持续时间)的参数。
我想也许唱歌的每个音节都可以用<phoneme>
指定它的发音,用<prosody>
指定它的音高和持续时间,中间有<break>
标签:
<speak>
<prosody rate="20%">
<phoneme alphabet="x-sampa" ph="U">oo</phoneme>
<break strength="none" />
</prosody>
<prosody rate="20%" pitch="+50%">
<phoneme alphabet="x-sampa" ph="U">oo</phoneme>
<break strength="none" />
</prosody>
<prosody rate="20%">
<phoneme alphabet="x-sampa" ph="U">oo</phoneme>
</prosody>
</speak>
然而,在执行时,Alexa 会应用她内置的音调变化(听起来像真人),因此音调并不平坦。例如,这些“哦”的声音(上图)都有一个降调。 (即使明确指定了“不间断”,它们在音素之间也有明显的间断。)
那么,听到所有这些歌曲的 Alexa 声音是如何被编程的? 是通过目前仅供亚马逊开发者使用的工具吗?
同样让我感到困惑的是,我显然是互联网上唯一一个问这个问题的人(基于 Whosebug 中的零结果,google,等等),尤其是在游戏的后期。不是有很多音乐家愿意让 Alexa 唱他们想唱的任何东西吗?
编辑:伙计们,我认为这是常识,但 there is no human voice actor 落后于 Alexa。她的声音完全是电脑合成的。
我的预测要么是像自然语言处理这样非常奇特的东西,要么是那些台词附近的东西,AI/ML 或者他们只是让配音演员唱出一些东西或唱出特定的音调,然后把它们剪在一起,我不知道我有一个 Alexa,但我确实有一个 HomePod mini 和一个 iPhone 以及它发音我们当地歌手名字的方式,例如“sidhu moosewala”或“amrit maan”(离题但仍然相关)我相信他们只是削减并以“干净”和“流畅”的方式组合单词。
Alexa 的声音完全由计算机生成,歌曲也是如此。正在研究生成歌唱合成器模型 (#1 and #2)。
这是 Popgun Labs 关于 how they make their AI sing 的视频。虽然我无法找到亚马逊和 Google 是如何做到这一点的,但我猜它会是类似的东西。
编辑:我之前的回答是基于一个扩展页面,得出了不正确的结论。
也许她的声音只是自动调谐。
当然,音高变换工具可以从任何音频源强制调整任何所需的音调,我认为此类工具也可以强制更改持续时间。