Microsoft 语音之间的差异 products/platforms

Difference among Microsoft Speech products/platforms

微软似乎提供了很多语音识别产品，我想知道它们之间的区别。

有Microsoft Speech API, or SAPI. But somehow Microsoft Cognitive Service Speech API同名
现在好了，Microsoft Cognitive Service on Azure 提供语音服务API和Bing语音API。我假设对于语音到文本，两个 API 是相同的。
然后System.Speech.Recognition (or Desktop SAPI), Microsoft.Speech.Recognition (or Server SAPI) and Windows.Media.Speech.Recognition. and 对三者的区别做了一些解释。但我猜它们是基于 HMM 的旧语音识别模型，也不是神经网络模型，这三个模型都可以在没有互联网连接的情况下离线使用，对吧？
对于 Azure 语音服务和 bing 语音 APIs，它们是更高级的语音模型吧？但我认为没有办法在我的本地机器上离线使用它们，因为它们都需要订阅验证。（即使看起来 Bing API 有一个 C# desktop library..）

基本上我想要一个离线模型，它可以为我的对话数据（每个录音5-10分钟）进行语音到文本的转录，它可以识别多种-扬声器和输出时间戳（或时间编码输出）。我现在对所有选项感到有点困惑。如果有人能给我解释一下，我将不胜感激！

一个困难的问题 - 以及它如此困难的部分原因：我们（Microsoft）似乎提出了一个关于 'speech' 和 'speech apis' 的不连贯的故事。虽然我在微软工作，但以下是我对此的看法。我尝试就我的团队正在计划的内容提供一些见解（认知服务语音 - 客户端 SDK），但我无法预测不久的将来的所有方面。

Microsoft 很早就认识到语音是一种重要的媒介，因此 Microsoft 在其产品中启用语音功能方面有着广泛而悠久的运行历史。有非常好的语音解决方案（具有本地识别）可用，您列出了其中一些。

我们正在努力统一这一点，并提供一个位置供您在 Microsoft 找到最先进的语音解决方案。这是 'Microsoft Speech Service' (https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/) - 目前处于预览状态。

在服务方面，它将结合我们的主要语音技术，如语音转文本、文本转语音、意图、翻译（和未来的服务）。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移（今年晚些时候），该 SDK 将在所有主要操作系统（Windows、Linux、Android、iOS）上可用，并支持主要编程语言。我们将继续 enhance/improve SDK 的平台和语言支持。

这种在线服务和客户端 SDK 的组合将在今年晚些时候离开预览状态。

我们理解对具有本地识别功能的渴望。它不会在我们的第一个 SDK 版本中提供 'out-of-the-box'（它也不是当前预览的一部分）。 SDK 的一个目标是平台和语言之间的对等（功能和 API）。这需要做很多工作。离线现在不在其中，我无法在这里做出任何预测，无论是功能还是时间线......

所以从我的角度来看 - 新的语音服务和 SDK 是前进的方向。目标是在所有平台上统一 API，轻松访问所有 Microsoft 语音服务。它需要订阅密钥，它需要你是 'connected'。我们正在努力使（服务器和客户端）在今年晚些时候退出预览状态。

希望这对您有所帮助...

沃尔夫冈

Microsoft 语音之间的差异 products/platforms

Difference among Microsoft Speech products/platforms

speech-recognition

speech-to-text

microsoft-speech-api

microsoft-speech-platform

microsoft-cognitive