使用 pydub 为 Google 语音导出音频

Exporting Audio for Google Speech using pydub

我正在尝试将 Google 语音的音频文件导出到 LINEAR16,我注意到它们指定了小端字节顺序。我正在使用 pydub 导出为 'raw' 格式,但我无法从文档(或源代码)中判断导出的文件是小端格式还是大端格式? 我正在使用以下命令进行导出:

audio = pydub.from_file(self.mFilePathName, "mp4")
fullFileNameRaw = "audio.raw"
audio.export(fullFileNameRaw, format='raw')

谢谢。 -K

根据this answer,标准 (RIFF) 波形文件是小端。 Pydub 使用 stdlib wave 模块来编写 wave 文件,所以我猜它是小端。 (如果你用 wave headers 编写文件,它实际上在开头有 RIFF)。

不过,进一步研究一下,它似乎可能取决于硬件平台的字节顺序。 x86 和 AMD64 都是小端,所以基本上涵盖了人们会 运行 pydub(我想?)

的所有地方