如何在 OS X 上进行实时转录(没有音频文件)?

How can I get live transcription on OS X (without audio files)?

我正在为陷入多余会议的人们开发一款应用程序,他们需要知道何时有人问他们问题。

我的计划是:

  1. 将会议音频(通常是我的扬声器发出的声音)流式传输到 speech-to-text 程序中
  2. 将其流式传输到监视我的名字的东西中and/or 升调提问
  3. 当有人问我问题时,有程序"ding"。然后我可以快速阅读课文并回答。

困难的部分是步骤 (1)。我发现的所有 speech-to-text 程序都接受音频文件作为输入,并且不能只从任何通道流式传输到 speakers/headphones。另一方面,我发现的辅助程序接管了键盘输入。理想情况下,用户将能够在会议期间通过输入其他应用程序来完成富有成效的工作,因此这种解决方案将行不通。

所以我正在寻找可以在 OS X 上使用的东西,它可以处理步骤 (1) 甚至更好 为我完成上述大部分步骤。

我已经研究了解决方案,但找不到步骤 (1) 的任何内容。我将其他步骤包括在内,因为可能有我不知道的针对整个程序的更有创意的解决方案(例如其他一些不用于听写的辅助技术)。

您可以使用许多 API,例如 streaming API from Google,但它不是完全免费的。

如果您可以容忍较低的准确性,您可以使用开源软件,例如 CMUSphinx

还有一个问题是如何从voip软件中获取音频流,你必须自己破解。或者你必须重新录制扬声器播放的内容,这并不总是一个好主意。

1) 我已将 LoopBack 用于应用程序间音频路由,本质上是一个虚拟混音器,可将音频从一个应用程序传输到另一个应用程序。它显示为音频输入设备,还允许监控 - 因此您可以收听并流式传输到另一个应用程序。

2 和 3) 不是我的专业领域,但我可能会调查任何 google API(如 Nikolay 所说)以开始我的研究。