Alexa 是如何编程唱歌的？

Question

如果你说“Alexa，为我唱歌”，她会从几首用她的声音创作的歌曲中选择一首。这些歌曲的声音一定是以某种方式创造出来的。

起初，我认为 SSML 会提供执行此操作所需的工具，尤其是 <prosody> tag，它具有 pitch 和 rate（持续时间）的参数。

我想也许唱歌的每个音节都可以用<phoneme>指定它的发音，用<prosody>指定它的音高和持续时间，中间有<break>标签:

<speak>
  <prosody rate="20%">
    <phoneme alphabet="x-sampa" ph="U">oo</phoneme>
    <break strength="none" />
  </prosody>
  <prosody rate="20%" pitch="+50%">
    <phoneme alphabet="x-sampa" ph="U">oo</phoneme>
    <break strength="none" />
  </prosody>
  <prosody rate="20%">
    <phoneme alphabet="x-sampa" ph="U">oo</phoneme>
  </prosody>
</speak>

然而，在执行时，Alexa 会应用她内置的音调变化（听起来像真人），因此音调并不平坦。例如，这些“哦”的声音（上图）都有一个降调。（即使明确指定了“不间断”，它们在音素之间也有明显的间断。）

那么，听到所有这些歌曲的 Alexa 声音是如何被编程的？ 是通过目前仅供亚马逊开发者使用的工具吗？

同样让我感到困惑的是，我显然是互联网上唯一一个问这个问题的人（基于 Whosebug 中的零结果，google，等等），尤其是在游戏的后期。不是有很多音乐家愿意让 Alexa 唱他们想唱的任何东西吗？

编辑：伙计们，我认为这是常识，但 there is no human voice actor 落后于 Alexa。她的声音完全是电脑合成的。

Answer 1

我的预测要么是像自然语言处理这样非常奇特的东西，要么是那些台词附近的东西，AI/ML 或者他们只是让配音演员唱出一些东西或唱出特定的音调，然后把它们剪在一起，我不知道我有一个 Alexa，但我确实有一个 HomePod mini 和一个 iPhone 以及它发音我们当地歌手名字的方式，例如“sidhu moosewala”或“amrit maan”（离题但仍然相关）我相信他们只是削减并以“干净”和“流畅”的方式组合单词。

Answer 2

Alexa 的声音完全由计算机生成，歌曲也是如此。正在研究生成歌唱合成器模型 (#1 and #2)。

这是 Popgun Labs 关于 how they make their AI sing 的视频。虽然我无法找到亚马逊和 Google 是如何做到这一点的，但我猜它会是类似的东西。

编辑：我之前的回答是基于一个扩展页面，得出了不正确的结论。

Answer 3

也许她的声音只是自动调谐。

当然，音高变换工具可以从任何音频源强制调整任何所需的音调，我认为此类工具也可以强制更改持续时间。

Alexa 是如何编程唱歌的？

How is Alexa programmed to sing?

audio

ssml

alexa

alexa-skill

alexa-skills-kit