pocketsphinx 的僧伽罗语模型问题

Sinhala language model issue for pocketsphinx

我正在尝试为 僧伽罗语 语言创建一个语音识别 系统。我试图创建一个语言模型,但遵循 中的答案。我在 windows.My 输入文件上同时使用了在线 lmtool 和 cmuclmtk-0.7-win32,如下所示,

එක  eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ  pa ha
හය  ha iya
හත  ha tha
අට  ah ta
නවය na wa ya

提交给 lmtool 和 cmuclmtk 后得到如下输出,

AHTA    AE T AH
DEKA    D AH K AA
EKA EH K AH
HAIYA   HH EY AY AH
HATHA   HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA  N AO EY AH
PAHA    P AE HH AH
THUNA   TH UW N AH
අට  
තුන   
දෙක   
නවය   
පහ  
හත  
හතර   
හය  
එක   

.dic 和.lm 文件都包含以上字符。我觉得这些都是一些垃圾角色。我做错了什么得到这个?

你做错了。

构建语料库需要文本文件,而不是字典文件。您单独创建字典。

您不应使用适合您的语言的在线 lmtool。它仅适用于英语。

要从文本训练语言模型,您应该使用 srilm。