Google 语音转文本延迟 25 秒

25s Latency in Google Speech to Text

这是我 运行 使用 Google Speech to Text Engine 时遇到的问题。我目前正在 32kB 块中实时流式传输 16 位/16 kHz 音频。但是在发送音频和接收 t运行scripts 之间平均有 25 秒的延迟,违背了实时 t运行scripts 的目的。

为什么延迟这么高?

Google Speech to Text documentation 建议使用 100 毫秒的帧大小以最大程度地减少延迟。

32kB *(8 位/1 字节)*(1 个样本/16 位)*(1 秒/16000 个样本)= 1 秒

所以请尝试发送 3.2kB 的块。这将平均延迟从 25 秒降低到 ~4 秒。