使用 pydub 为 Google 语音导出音频

Question

我正在尝试将 Google 语音的音频文件导出到 LINEAR16，我注意到它们指定了小端字节顺序。我正在使用 pydub 导出为 'raw' 格式，但我无法从文档（或源代码）中判断导出的文件是小端格式还是大端格式？我正在使用以下命令进行导出：

audio = pydub.from_file(self.mFilePathName, "mp4")
fullFileNameRaw = "audio.raw"
audio.export(fullFileNameRaw, format='raw')

谢谢。 -K

Answer 1

根据this answer，标准 (RIFF) 波形文件是小端。 Pydub 使用 stdlib wave 模块来编写 wave 文件，所以我猜它是小端。（如果你用 wave headers 编写文件，它实际上在开头有 RIFF）。

不过，进一步研究一下，它似乎可能取决于硬件平台的字节顺序。 x86 和 AMD64 都是小端，所以基本上涵盖了人们会运行 pydub（我想？）

的所有地方

Exporting Audio for Google Speech using pydub