使用哪种语音识别系统?

Which speech recognition system to use?

我想实现以下想法。我需要我的用户打开网页或移动应用程序并说些什么。用户的语音将被录制并发送到本地服务器,我希望服务器对其进行处理并生成一些语音输出。

接下来是我的问题:

  1. 使用哪个语音识别API?在我的情况下,音频文件将是 发送到服务器,然后进行处理。

  2. 我需要识别名字和姓氏。这是一个潜在的问题,因为我不住在英语国家,名字和姓氏对说英语的人来说可能很陌生。我想通过向 "dictionary" 语音识别系统添加所需的姓名和姓氏来实现这一点,因此我需要一个可以扩展其词典的系统。

  3. 我需要自由决定。

那么,我应该使用哪种语音识别 API 来实现我的想法?

我过去曾成功使用 CMU Sphinx toolkit 进行语音识别。我在 Android 应用程序中使用了它的变体。如果我没记错的话,它确实允许创建特定单词的字典来查找,因此它可能适合您的需要。

我建议您看一下 Nuance 的演讲 API。他们拥有市场上最好的,并且可以在任何平台上使用。我们将它们用于我们的产品 LinguSocial,它为手机和固定电话提供近乎实时的语音通话翻译,还提供机器翻译的视频聊天。