语音信号的手动音调估计

Manual pitch estimation of a speech signal

我是语音处理的新手。所以请原谅我的无知。我得到了一个简短的语音信号(10 秒),并被要求使用 MATLAB 或 Wavesufer 软件手动注释音高。现在如何找到语音信号的音高?。是否有任何理论资源可以帮助解决这个问题?我尝试使用 Wavesurfer.Is 绘制信号的音调轮廓,对吗?

编辑 1:My 工作是对我们的数据应用各种音调检测算法并比较它们的准确性。所以手动注释音高作为参考。

更新 1:我通过微分 EGG (dEGG) 信号获得了 GCI(声门闭合瞬间),dEGG 中的峰值是 GCI。两个连续的 GCI 之间的时间间隔是音调周期 (s)。音高周期的倒数是音高(hz).

更新 2 : SIGMA 是一种著名的自动 GCI 检测算法。

谢谢大家。

通常在伴随 EGG 记录的信号上获得基本事实。 EGG是Electrogastrogram的缩写,是一种记录真实音高的特殊装置

由于我怀疑您是否可以访问此类设备,因此我建议您使用为该任务精心准备的现有数据库进行音高提取评估。你可以下载它here。该数据由 Paul Bagshaw 在爱丁堡大学收集

我建议你也看看他的论文。

如果您想与最先进的音调提取算法进行比较 https://github.com/google/REAPER. Also note that "true" pitch might not be the best feature for subsequent algorithms. Sometime you might extract pitch with mistakes but get better accuracy for example for speech recognition. Check for more information this publication