在 Sphinx4 中使用德语词典和语言模型

Use German dictionary and language model with Sphinx4

我可以使用 Sphinx4 自带的 en-us 东西,没问题:

cfg.setAcousticModelPath("resource:/edu/cmu/sphinx/models/en-us/en-us")
cfg.setDictionaryPath("resource:/edu/cmu/sphinx/models/en-us/cmudict-en-us.dict")
cfg.setLanguageModelPath("resource:/edu/cmu/sphinx/models/en-us/en-us.lm.bin")

我可以用它来转录英文录音文件。

现在我想将其用于 德语 录音。在网站上我找到了 link 到 Acoustic and Language Models。其中有一个存档 'German Voxforge'。我找到了 acoustic model 路径的相应文件。但据我所知,它不包含字典或语言模型。

如何获取 Sphinx4 中德语的 词典和语言模型 路径?

您自己创建它们。您可以从字幕或维基百科转储创建语言模型。文档是 here.

最新的德国模型实际上不在 CMUSphinx 页面上,它们在 github/gooofy。在这个愚蠢的项目中,您可以找到字典文档、模型和相关数学。

我用 pocketsphinx 尝试了德语模型,但由于“无效”语言模型 *.lm.bin 出现了一些错误文件被使用。 我已经切换到 *.lm.gz 并且工作正常。

正确的配置列表是:

  • fst = voxforge-de.fst
  • 嗯文件夹 = model_parameters/voxforge.cd_cont_6000
  • 词典 = cmusphinx-voxforge-de.dic
  • 语言模型 = cmusphinx-voxforge-de.lm.gz

要获得“hmm”路径,您应该解压缩存档: cmusphinx-de-voxforge-5.2.tar.gz

我觉得Sphinx4应该也一样,你试试吧