使用哪种语音识别系统？

Which speech recognition system to use?

我想实现以下想法。我需要我的用户打开网页或移动应用程序并说些什么。用户的语音将被录制并发送到本地服务器，我希望服务器对其进行处理并生成一些语音输出。

接下来是我的问题：

使用哪个语音识别API？在我的情况下，音频文件将是发送到服务器，然后进行处理。
我需要识别名字和姓氏。这是一个潜在的问题，因为我不住在英语国家，名字和姓氏对说英语的人来说可能很陌生。我想通过向 "dictionary" 语音识别系统添加所需的姓名和姓氏来实现这一点，因此我需要一个可以扩展其词典的系统。
我需要自由决定。

那么，我应该使用哪种语音识别 API 来实现我的想法？

我过去曾成功使用 CMU Sphinx toolkit 进行语音识别。我在 Android 应用程序中使用了它的变体。如果我没记错的话，它确实允许创建特定单词的字典来查找，因此它可能适合您的需要。

我建议您看一下 Nuance 的演讲 API。他们拥有市场上最好的，并且可以在任何平台上使用。我们将它们用于我们的产品 LinguSocial，它为手机和固定电话提供近乎实时的语音通话翻译，还提供机器翻译的视频聊天。