Pocketsphinx 无法解码 mfc 文件,而 pocketsphinx_continuous 解码相应的 wav
Pocketsphinx cannot decode mfc file while pocketsphinx_continuous decodes corresponding wav
几个月来,我一直在使用 CMUsphinx 将土耳其语语音转换为文本。我已经成功运行一趟火车上了100小时的音。我的目标是将生成的声学模型与 Sphinx3 解码器一起使用。但是 Sphinx3 解码器无法解码我的测试 wav 文件。然后我注意到 sphinxtrain 运行s pocketsphinx_batch 在训练结束时用于测试模型。
所以,我开始研究 poscketsphinx。我正处于 pocketsphinx 批处理无法解码 wav 文件的地步(实际上它只产生 ııı 没有别的)但是 pocketsphinx 连续使用同一文件产生更有意义的输出(例如 15 个单词中的 10 个正确的单词)。
我想我遗漏了一些配置步骤。我在这个 link 中有一个压缩存档
其中包括我尝试解码的声学和语言模型、字典和 wav 文件。
我要求获得帮助,以便能够将我的模型与 Sphinx3 和 Pocketsphinx_batch 一起使用。
谢谢。
幸运的是我发现了问题。它是由 sphinx_fe 生成的特征向量。我是用默认值创建它们的。阅读 make_feats.pl 和 sphinxtrain.cfg 文件后,我创建了与声学模型兼容的特征向量。 Sphinxtrain.cfg 的 lifter 参数为 22,但是如果我们使用 sphinx_fe,默认值 lifter 为 0,这意味着没有 lifter。我创建了提升器值为 22 的 mfc 然后它工作了。
几个月来,我一直在使用 CMUsphinx 将土耳其语语音转换为文本。我已经成功运行一趟火车上了100小时的音。我的目标是将生成的声学模型与 Sphinx3 解码器一起使用。但是 Sphinx3 解码器无法解码我的测试 wav 文件。然后我注意到 sphinxtrain 运行s pocketsphinx_batch 在训练结束时用于测试模型。
所以,我开始研究 poscketsphinx。我正处于 pocketsphinx 批处理无法解码 wav 文件的地步(实际上它只产生 ııı 没有别的)但是 pocketsphinx 连续使用同一文件产生更有意义的输出(例如 15 个单词中的 10 个正确的单词)。
我想我遗漏了一些配置步骤。我在这个 link 中有一个压缩存档 其中包括我尝试解码的声学和语言模型、字典和 wav 文件。
我要求获得帮助,以便能够将我的模型与 Sphinx3 和 Pocketsphinx_batch 一起使用。
谢谢。
幸运的是我发现了问题。它是由 sphinx_fe 生成的特征向量。我是用默认值创建它们的。阅读 make_feats.pl 和 sphinxtrain.cfg 文件后,我创建了与声学模型兼容的特征向量。 Sphinxtrain.cfg 的 lifter 参数为 22,但是如果我们使用 sphinx_fe,默认值 lifter 为 0,这意味着没有 lifter。我创建了提升器值为 22 的 mfc 然后它工作了。