从音频片段中提取单词

Extract words from audio clip

我想创建一个应用程序来记录你对着麦克风说的话并提取所有的话。

我知道这是许多公司和个人正在努力解决的问题,但我不太确定我们距离开发擅长此的工具还有多远。

此外,是否有公开可用的工具来实现此目的?我希望 Google 助手、Apple Siri 或其他我可以通过上传音频剪辑然后获取所说的话来使用的 API。

Microsoft 有 Bing Speech API 用于处理音频并提取所说的话。

他们还有Custom Speech Service and Speaker Recognition API

自定义语音服务用于克服说话风格、词汇和背景噪音等语音识别障碍。

可用的 help docs and samples 是一个很好的起点。

虽然 Google 确实有一个 Google Assistant SDK, it is primarily aimed at sending audio from your software or device and receiving an audio response from the Assistant - just like you would get on a Google Home. Similarly,Actions on Google 是为了处理所有的自然语言处理 (NLP) 并给你一个回应 - 而不是给你确切的内容(虽然这是一个副作用)。

这听起来更像是您想要的 Cloud Speech API which is a speech to text (STT) system. You may want to combine this with something like the Cloud Natural Language API 然后可以从生成的文本中解析含义。