Microsoft Speech to Text Python SDK SPXERR_INVALID_HEADER issue

我在使用 Microsoft Python Speech-to-Text Quickstart ("Quickstart: Recognize speech from an audio file") with the azure-cognitiveservices-speech v1.8.0 SDK 时遇到以下错误。

RuntimeError: Exception with an error code: 0xa (SPXERR_INVALID_HEADER)

此文件只有 3 个输入:

我正在使用以下测试 MP3 文件:


Traceback (most recent call last):
  File "", line 16, in <module>
    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_input)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/azure/cognitiveservices/speech/", line 761, in __init__
    self._impl = self._get_impl(impl.SpeechRecognizer, speech_config, audio_config)
  File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/azure/cognitiveservices/speech/", line 547, in _get_impl
    _impl = reco_type._from_config(speech_config._impl, audio_config._impl)
RuntimeError: Exception with an error code: 0xa (SPXERR_INVALID_HEADER)

任何人都可以提供一些关于 header 这是指什么以及如何解决这个问题的建议。

不支持将 mp3 编码的音频作为输入格式。请使用具有 16 位样本、16 kHz 采样率和单声道 (Mono) 的 WAV(PCM) 文件。

默认的音频流格式是 WAV(16kHz 或 8kHz、16 位和单声道 PCM)。除了 WAV / PCM 之外,还支持下面列出的压缩输入格式。

但是如果你使用C#/Java/C++/Objective C并且你想使用.mp3等压缩音频格式,你可以处理它通过使用 GStreamer

有关详细信息,请参阅此 Microsoft 文档。

我想没有官方方法可以使用不同格式(mp3 或不同帧率)的 SDK 我想使用能够使用任何类型的音频文件输入的 Azure 方法



fname_buf = fname
fname = self.AudioFileAdjust(fname,'test-it') 

# Do somethings

if fname_buf != fname:


def AudioFileAdjust(self,fname,states=''):
    check audio file format and if not appropriate create new buffer audio for use
    if states == 'remove':
        # if the file format not useful for Azure, first need to change -> fr: 16000 must be
        audio_file = au.ReadAudioFile(fname)
        if audio_file.frame_rate != int(16000):
            #print('[Commend] changing the FrameRate')
            audio_file_e = au.SetFramerate(audio_file,int(16000))
            #change fine name for use
            fname2 = fname.split(".")[0] + "_Conv_2" + ".wav"  #without wav firstly and add additional 
            #print('new file name: ', fname)
            fname = fname2
    return fname