如何在 js 网络应用程序中获取音频或视频通话的文字记录? IE。如何将 MediaStream 路由到语音转文本 API

How to get a transcript of an audio or video call within a js web app? I.e. how to route a MediaStream to a speech-to-text API

我想制作一个通过实时转录进行视频通话的网络应用程序——使用一些第 3 方语音转文本服务(例如 Google 或亚马逊)。因此点对点 MediaStream 将播放给用户,并发送到 API 进行转录。

我目前正在使用 https://peerjs.com/ 创建点对点呼叫。

这可行吗?有没有我可以使用的代码示例或库?

谢谢你,丹尼尔

我认为这可以很容易地完成 Azure speach to text service,也许可以使用其他解决方案,但对于 Azure,我能够快速找到所有部分。

有浏览器用例示例Here

This line is responsible for getting audio source from microphone, but in you case more interesting would be to use: fromStreamInput 函数,接受 MediaStream。

我也想知道执行此过程的最佳位置:

  • 在源机器上,将音频发送到接收器和 speachSDK,然后在获得转录后发送它。
  • 在接收机器上,接收后使用SDK获取转录,在这种情况下,音频可能在传输过程中被压缩,因此质量较差,因此您可能会得到较差的转录。

不过这很容易测试。