pocketsphinx 的僧伽罗语模型问题
Sinhala language model issue for pocketsphinx
我正在尝试为 僧伽罗语 语言创建一个语音识别 系统。我试图创建一个语言模型,但遵循 中的答案。我在 windows.My 输入文件上同时使用了在线 lmtool 和 cmuclmtk-0.7-win32,如下所示,
එක eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ pa ha
හය ha iya
හත ha tha
අට ah ta
නවය na wa ya
提交给 lmtool 和 cmuclmtk 后得到如下输出,
AHTA AE T AH
DEKA D AH K AA
EKA EH K AH
HAIYA HH EY AY AH
HATHA HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA N AO EY AH
PAHA P AE HH AH
THUNA TH UW N AH
අට
à¶à·”න
දෙක
නවය
පහ
à·„à¶
à·„à¶à¶»
හය
එක
.dic 和.lm 文件都包含以上字符。我觉得这些都是一些垃圾角色。我做错了什么得到这个?
你做错了。
构建语料库需要文本文件,而不是字典文件。您单独创建字典。
您不应使用适合您的语言的在线 lmtool。它仅适用于英语。
要从文本训练语言模型,您应该使用 srilm。
我正在尝试为 僧伽罗语 语言创建一个语音识别 系统。我试图创建一个语言模型,但遵循
එක eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ pa ha
හය ha iya
හත ha tha
අට ah ta
නවය na wa ya
提交给 lmtool 和 cmuclmtk 后得到如下输出,
AHTA AE T AH
DEKA D AH K AA
EKA EH K AH
HAIYA HH EY AY AH
HATHA HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA N AO EY AH
PAHA P AE HH AH
THUNA TH UW N AH
අට
à¶à·”න
දෙක
නවය
පහ
à·„à¶
à·„à¶à¶»
හය
එක
.dic 和.lm 文件都包含以上字符。我觉得这些都是一些垃圾角色。我做错了什么得到这个?
你做错了。
构建语料库需要文本文件,而不是字典文件。您单独创建字典。
您不应使用适合您的语言的在线 lmtool。它仅适用于英语。
要从文本训练语言模型,您应该使用 srilm。