文本到语音与化身口型同步，无插件

Question

是否存在 JavaScript 库或产品，可以为动画、说话的头像提供文本到语音的转换，而不使用 flash 或任何其他插件。我的想法是，我输入文本，头像的嘴巴随着音频的播放而移动。

目标是跨浏览器、跨设备、无插件、基于网络的聊天头像。

我看了看 CrazyTalk，它看起来很完美，但遗憾的是它依赖于 unity 引擎。

然后我开始考虑通过将现有的文本与语音服务相结合来推出自己的服务，并尝试从音频波中提取音素，并将自己的音素词典制作成 canvas 形状。这似乎也不存在（即使存在，我也不确定我将如何处理嘴部运动到音频的时间）。

2015 年了，我觉得这样的东西应该已经存在了，我不应该试图发明它。

编辑： 现在我正在调查 Microsft.Speech。我真的需要一些能在音节中吐出类似 IPA 的东西，我不确定 MS.Speech 是否能做到这一点。 TTS wave 创建是比较容易的部分。我可以将文本发送到服务器，将语音音节与嘴点坐标相匹配……如果我能把这些音节分开的话。什么将文本分解为拼音音节 .

Answer 1

您想查看语音合成API。最基本的用法是：

var msg = new SpeechSynthesisUtterance('Hello World');
window.speechSynthesis.speak(msg);

http://updates.html5rocks.com/2014/01/Web-apps-that-talk---Introduction-to-the-Speech-Synthesis-API

https://dvcs.w3.org/hg/speech-api/raw-file/tip/speechapi.html#tts-section

浏览器支持如下： http://caniuse.com/web-speech。目前只有 Chrome 和 Safari 支持。

Answer 2

我想我有办法了。简而言之，不，似乎没有现成的实用程序……然而 ;-)

我决定使用 Microsoft Speech Platform。它比 return phonemes 更好，它提供了伴随的 viseme IDs 以及它们出现的音频位置。所以我可以在服务器端生成一个 wav 文件和一个 viseme 元数据列表并检索它们。现在弄清楚如何同步它们。

Answer 3

我遇到了类似的问题。

首先，你看过www.haptek.com了吗？这正是你想要的......但它似乎已经死了并且只能在xp上工作......

其次，可以直接从浏览器中的脚本使用 Microsoft 语音 api...但是我认为 chrome tts 是更好的选择。

文本到语音与化身口型同步，无插件

Text to speech with avatar lip sync, no plug-ins

html

javascript

canvas

text-to-speech