Watson Speech To Text 服务对于哪种类型的音频文件工作速度更快?

Watson Speech To Text service works faster for which type of audio file?

我已尝试将 Watson Speech to Text API 用于 MP3 和 WAV 文件。根据我的观察,与 WAV 相比,如果以 MP3 格式给出相同长度的音频,则花费的时间更少。对于 MP3 文件,连续 10 次 API 不同音频的通话平均耗时 8.7 秒。另一方面,WAV 格式的相同输入平均耗时 11.1 秒。服务响应时间是否取决于文件类型?推荐使用哪种文件类型可以更快地获得结果?

不同的编码格式有不同的码率。 mp3 和 opus 是有损压缩格式(虽然适用于比特率不太低的语音识别),因此它们提供最低的比特率。如果您需要通过网络推送更少的字节,这通常有利于延迟,那么根据您的网络速度,您可以在使用较低比特率的编码时看到更短的处理时间。

但是,对于实际的语音识别过程(忽略网络上的数据传输),所有编码都同样快,因为在识别开始之前,所有音频都已解压缩,如有必要,并转换为目标的采样率型号(宽带或窄带)。