语音转文本音频格式

Speech to Text audio formats

我们可以使用语音中的 MP3 音频文件向 Watson 发短信 API 吗?

语音转文本 Watson API 不受支持的流行格式是什么?

不支持 MP3: Watson Speech to Text audio formats

我建议你使用WAV格式,案例:流行格式。视情况使用而定。

如果确实需要使用MP3,可以简单convertMP3转WAV。

但是,Speech to Text 支持的格式是:

  • audio/flac: Free Lossless Audio Codec (FLAC),一种无损压缩音频编码格式.有关详细信息,请参阅 en.wikipedia.org/wiki/FLAC.

  • audio/l16: 线性 16 位脉冲编码调制 (PCM),未压缩音频数据格式。使用此媒体类型传递原始 PCM 文件。请注意,线性 PCM 音频也可以驻留在容器波形音频文件格式 (WAV) 文件中。有关详细信息,请参阅互联网工程任务组 (IETF) 评论请求 (RFC) 2586 和 en.wikipedia.org/wiki/Pulse-code_modulation.

  • audio/wav: 波形音频文件格式 (WAV),Microsoft® 创建的标准和IBM。 WAV 文件是一种容器,通常用于未压缩的音频比特流,但也可以包含压缩的音频。有关详细信息,请参阅 en.wikipedia.org/wiki/WAV。 该服务支持使用任何编码的 WAV 文件。它接受最多九个通道的音频(由于 FFmpeg 限制)。

  • audio/ogg/ audio/ogg;codecs=opus / audio/ogg; codecs=vorbis:Ogg 是一种免费、开放的容器格式,由 Xiph.org 基金会维护;有关详细信息,请参阅 www.xiph.org/ogg/。 这两种编解码器都是免费、开放、有损的音频压缩格式。 Opus 是首选编解码器。如果您省略编解码器,该服务会自动从输入音频中检测它。

  • audio/webm/ audio/webm;codecs=opus/ audio/webm;codecs=vorbis: 网络媒体 (WebM) 是一种开放的媒体文件格式;有关详细信息,请参阅 webmproject.org。 WebM 支持使用 Opus 和 Vorbis 音频编解码器压缩的音频流; Opus 是首选编解码器。如果您省略编解码器,该服务会自动从输入音频中检测到它。对于显示如何在 Chrome 浏览器中从麦克风捕获音频并将其编码为 WebM 数据流的 JavaScript 代码。

但是,您可以在 Speech to Text Official Documentation 中看到具有更多详细信息 的所有格式。 我建议您编辑更多细节并阅读文档,通常,来自 IBM 的文档非常 objective 和完整。

不要为语音到文本的转换选择特定的音频格式而苦恼,大多数手动语音到文本或transcription services accepts all available formats. When we go for automatic speech to text service, i always prefer wav over mp3, since it contains high bit audio data without losing the quality of the audio and accepting by most speech engines. And here are the list of formats supported by any Transcription Company: https://www.transcriptionwave.com/format.html