Javascript - 具有音高和持续时间控制的文本到语音
Javascript - text to speech with pitch and duration control
我一直在考虑让我的 javascript 程序唱歌。
我首先看了网络语音 api,但是音高控制似乎非常有限,所以我想也许有办法将结果发送到网络音频节点,并从那里应用效果但是这似乎不可能。
我找到了 mespeak.js 库:http://www.masswerk.at/mespeak/
它允许 return 一个音频缓冲区,我将把它作为我的音频节点的源,允许更多的控制。
我的输入是一个音符序列,有频率和持续时间。像 :
var seq = [[440hz,1000ms],[880hz,500ms],...];
我设法从这个序列和一系列单词中得到我的程序以不同频率的节奏说出这些单词
但我遇到了一些问题。
- 网络音频失谐与 playbackRate 相关联,因此音调会改变单词持续时间。
- 我似乎只能使用 detune 或 playbackRate 值进行播放,这不允许我输入频率(例如 440)并获得该频率的结果。我唯一能做的就是近似我语音的基频,计算与预期音符和音高的差异,但结果不是很好。
- 我对如何处理持续时间一无所知。 playbackRate 是人为改变单词持续时间的唯一方法吗?我怎样才能强制我的话传播到特定的持续时间?
如果你们中的任何人对这类事情有任何经验,我将不胜感激。
非常感谢
编辑:添加一些代码
function sing(text,note,duration){
var buffer = meSpeak.speak(text,{rawdata:'default'});
playSound(buffer,freqToCents(note),duration)
}
function freqToCents(freq){
var root = 440 //no idea what is the base frequency of the speech generator
return 3986*Math.log10(freq/440)
}
function playSound(streamBuffer, cents, duration, callback) {
var source = context.createBufferSource();
source.connect(compressor);
context.decodeAudioData(streamBuffer, function(audioData) {
var duration = audioData.duration;
var delay = (duration)? Math.ceil(duration * 1000) : 1000;
setTimeout(callback, delay);
source.buffer = audioData;
source.detune.value = cents;
source.start(0);
}, function(error) { });
}
我的音序器正在工作,并且在每一步都在必要时调用 sings 函数,例如:
sing('test', 440, 1000)
正如我所说,我希望持续时间参数能够影响结果
Espeak supports SSML mode,您需要使用它来修改参数,而不是尝试对结果进行后处理。
您需要先使用 espeak,然后尝试在 javascript 端口中重现相同的结果。目前还不支持,但是在mespeak.js
这部分
'-w', 'wav.wav',
'-a', (typeof args.amplitude !== 'undefined')? String(args.amplitude) : (typeof args.a !== 'undefined')? String(args.a) : '1
'-g', (typeof args.wordgap !== 'undefined')? String(args.wordgap) : (typeof args.g !== 'undefined')? String(args.g) : '0',
'-p', (typeof args.pitch !== 'undefined')? String(args.pitch) : (typeof args.p !== 'undefined')? String(args.p) : '50',
'-s', (typeof args.speed !== 'undefined')? String(args.speed) : (typeof args.s !== 'undefined')? String(args.s) : '175',
您需要添加 -m
选项以启用 SSML。
我一直在考虑让我的 javascript 程序唱歌。
我首先看了网络语音 api,但是音高控制似乎非常有限,所以我想也许有办法将结果发送到网络音频节点,并从那里应用效果但是这似乎不可能。
我找到了 mespeak.js 库:http://www.masswerk.at/mespeak/
它允许 return 一个音频缓冲区,我将把它作为我的音频节点的源,允许更多的控制。
我的输入是一个音符序列,有频率和持续时间。像 :
var seq = [[440hz,1000ms],[880hz,500ms],...];
我设法从这个序列和一系列单词中得到我的程序以不同频率的节奏说出这些单词
但我遇到了一些问题。
- 网络音频失谐与 playbackRate 相关联,因此音调会改变单词持续时间。
- 我似乎只能使用 detune 或 playbackRate 值进行播放,这不允许我输入频率(例如 440)并获得该频率的结果。我唯一能做的就是近似我语音的基频,计算与预期音符和音高的差异,但结果不是很好。
- 我对如何处理持续时间一无所知。 playbackRate 是人为改变单词持续时间的唯一方法吗?我怎样才能强制我的话传播到特定的持续时间?
如果你们中的任何人对这类事情有任何经验,我将不胜感激。
非常感谢
编辑:添加一些代码
function sing(text,note,duration){
var buffer = meSpeak.speak(text,{rawdata:'default'});
playSound(buffer,freqToCents(note),duration)
}
function freqToCents(freq){
var root = 440 //no idea what is the base frequency of the speech generator
return 3986*Math.log10(freq/440)
}
function playSound(streamBuffer, cents, duration, callback) {
var source = context.createBufferSource();
source.connect(compressor);
context.decodeAudioData(streamBuffer, function(audioData) {
var duration = audioData.duration;
var delay = (duration)? Math.ceil(duration * 1000) : 1000;
setTimeout(callback, delay);
source.buffer = audioData;
source.detune.value = cents;
source.start(0);
}, function(error) { });
}
我的音序器正在工作,并且在每一步都在必要时调用 sings 函数,例如:
sing('test', 440, 1000)
正如我所说,我希望持续时间参数能够影响结果
Espeak supports SSML mode,您需要使用它来修改参数,而不是尝试对结果进行后处理。
您需要先使用 espeak,然后尝试在 javascript 端口中重现相同的结果。目前还不支持,但是在mespeak.js
这部分 '-w', 'wav.wav',
'-a', (typeof args.amplitude !== 'undefined')? String(args.amplitude) : (typeof args.a !== 'undefined')? String(args.a) : '1
'-g', (typeof args.wordgap !== 'undefined')? String(args.wordgap) : (typeof args.g !== 'undefined')? String(args.g) : '0',
'-p', (typeof args.pitch !== 'undefined')? String(args.pitch) : (typeof args.p !== 'undefined')? String(args.p) : '50',
'-s', (typeof args.speed !== 'undefined')? String(args.speed) : (typeof args.s !== 'undefined')? String(args.s) : '175',
您需要添加 -m
选项以启用 SSML。