Microsoft 语音之间的差异 products/platforms

Difference among Microsoft Speech products/platforms

微软似乎提供了很多语音识别产品,我想知道它们之间的区别。

基本上我想要一个离线模型,它可以为我的对话数据(每个录音5-10分钟)进行语音到文本的转录,它可以识别多种-扬声器和输出时间戳(或时间编码输出)。我现在对所有选项感到有点困惑。如果有人能给我解释一下,我将不胜感激!

一个困难的问题 - 以及它如此困难的部分原因:我们(Microsoft)似乎提出了一个关于 'speech' 和 'speech apis' 的不连贯的故事。虽然我在微软工作,但以下是我对此的看法。我尝试就我的团队正在计划的内容提供一些见解(认知服务语音 - 客户端 SDK),但我无法预测不久的将来的所有方面。

Microsoft 很早就认识到语音是一种重要的媒介,因此 Microsoft 在其产品中启用语音功能方面有着广泛而悠久的 运行 历史。有非常好的语音解决方案(具有本地识别)可用,您列出了其中一些。

我们正在努力统一这一点,并提供一个位置供您在 Microsoft 找到最先进的语音解决方案。这是 'Microsoft Speech Service' (https://docs.microsoft.com/de-de/azure/cognitive-services/speech-service/) - 目前处于预览状态。

在服务方面,它将结合我们的主要语音技术,如语音转文本、文本转语音、意图、翻译(和未来的服务)。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移(今年晚些时候),该 SDK 将在所有主要操作系统(Windows、Linux、Android、iOS)上可用,并支持主要编程语言。我们将继续 enhance/improve SDK 的平台和语言支持。

这种在线服务和客户端 SDK 的组合将在今年晚些时候离开预览状态。

我们理解对具有本地识别功能的渴望。它不会在我们的第一个 SDK 版本中提供 'out-of-the-box'(它也不是当前预览的一部分)。 SDK 的一个目标是平台和语言之间的对等(功能和 API)。这需要做很多工作。离线现在不在其中,我无法在这里做出任何预测,无论是功能还是时间线......

所以从我的角度来看 - 新的语音服务和 SDK 是前进的方向。目标是在所有平台上统一 API,轻松访问所有 Microsoft 语音服务。它需要订阅密钥,它需要你是 'connected'。我们正在努力使(服务器和客户端)在今年晚些时候退出预览状态。

希望这对您有所帮助...

沃尔夫冈