建立新的声学模型、字典、语言模型用于不常见的语言语音识别

Build NEW Acoustic model, Dictionary , Language model for uncommon language speech recognition

我想为“Sinhala Language speech recognition”构建新的声学模型、新词典、新语言模型 僧伽罗语字符是基于 Unicode 的。例如 A=අ,I=ඉ,U=උ,KA=ක,BA=බ。 我确实经历了 CMUSphinx Tutorial For Developers。但这对我没有帮助。它适用于英语。

语言模型应该是ARPA模型。以及如何将僧伽罗语 Unicode 映射到英语音素,以及如何训练具有不同语音的语言模型。 是否有任何工具可用于生成基于 Unicode 的语言模型?

总的来说,它并不复杂。首先,您需要将任务分成几部分:构建语音词典、构建语言模型、构建声学模型。从注音字典入手。

您需要编写一个 Python 脚本来将 unicode 输入映射到音译:

රට  r a tt a
එකඟයි   e k a ng a yi
අවසර දිම    a v a s a r a d i m a

基本上每一个你写一个对应的音译。这就是您需要做的全部,稍后您只需将单词列表输入脚本并获得 cmusphinx 格式的字典。这部分包含在教程中

http://cmusphinx.sourceforge.net/wiki/tutorialdict

有了音译工具后,您就可以继续使用语言模型了。您需要大量文本来构建语言模型。您可以从维基百科或当地报纸下载文本。然后你可以使用任何语言模型工具包来创建 ARPA 模型。它们都支持 unicode——SRILM、MITLM、IRSTLM,你可以使用它们中的任何一个。这部分包含在教程中

http://cmusphinx.sourceforge.net/wiki/tutoriallm

第三步是创建声学模型。您需要录制音频或对现有录音进行分段并开始训练。这部分也包含在教程中

http://cmusphinx.sourceforge.net/wiki/tutorialam