Python list_microphone_names() 中的 SpeechRecognition 麦克风,但 list_working_microphones() 中没有
Python SpeechRecognition mic in list_microphone_names() but not in list_working_microphones()
我正在按照 here to build my own smart speaker. I purchased this 蓝牙 speaker/mic 列出的代码进行操作。当我大胆地用它录制音频时,麦克风工作得很好,当我使用以下使用 PyAudio 但不使用 SpeechRecognition
的代码时,它也能正常工作
import pyaudio
import wave
from array import array
FORMAT=pyaudio.paInt16
CHANNELS=2
RATE=44100*2
CHUNK=1024
RECORD_SECONDS=5
FILE_NAME="RECORDING.wav"
audio=pyaudio.PyAudio() #instantiate the pyaudio
#recording prerequisites
stream=audio.open(format=FORMAT,channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)
#starting recording
frames=[]
for i in range(0,int(RATE/CHUNK*RECORD_SECONDS)):
data=stream.read(CHUNK)
data_chunk=array('h',data)
vol=max(data_chunk)
if(vol>=500):
print("something said")
frames.append(data)
else:
print("nothing")
print("\n")
#end of recording
stream.stop_stream()
stream.close()
audio.terminate()
#writing to file
wavfile=wave.open(FILE_NAME,'wb')
wavfile.setnchannels(CHANNELS)
wavfile.setsampwidth(audio.get_sample_size(FORMAT))
wavfile.setframerate(RATE)
wavfile.writeframes(b''.join(frames))#append frames recorded to file
wavfile.close()
但是当我尝试使用以下代码时
import speech_recognition as sr
import pyaudio
r = sr.Recognizer()
mic = sr.Microphone(device_index=1)
with mic as source:
r.adjust_for_ambient_noise(source)
audio = r.listen(source, timeout=5)
print(r.recognize_google(audio))
有了这个 speaker/mic,它就会无限期地挂起。我用过 USB 麦克风,切换 device_index,效果很好。当我 list_microphone_names() 时,我可以在我的选项列表中看到蓝牙麦克风 'Headset Microphone (Bluetooth H' 以及我的 USB 麦克风 'Microphone (Blue Snowball)',但是当我 list_working_microphones() 时,蓝牙麦克风是走了。本质上,它识别出该设备存在但在 r.listen().
期间不会通过它听到音频
有人知道是什么原因造成的吗?
我深入研究了 Recognizer.listen() 的源代码,发现问题与它用作开始和停止录制音频的阈值的 "energy" 级别有关。默认能量水平(由 audioop.rms(buffer, source.SAMPLE_WIDTH) 测量)用作确定某人是否在说话的截止值是 300,并且会降低直到音频水平第一次突破此阈值.然后,在录制时,它会检查音频是否有多个并发实例低于截止值(pause_buffer_count,默认值为 35)以结束一个短语。
这个问题是我使用的蓝牙麦克风似乎吸收了很多环境噪音(and/or 只是热垃圾),即使我不说话也会有 100-400 的能量,所以程序会认为我还在说话。我通过在尝试收听音频之前让 adjust_for_ambient_noise 运行 停留更长的时间来解决此问题。
我的第二个问题是在说话之前等待 adjust_for_ambient_noise 到 运行 的时间不够长,这会切断我的短语,有时低于转录的音频长度限制,这会导致它静默尝试重新记录声明。在 adjust_for_ambient_noise.
之后用一个简单的 print("speak now") 解决了这个问题
我正在按照 here to build my own smart speaker. I purchased this 蓝牙 speaker/mic 列出的代码进行操作。当我大胆地用它录制音频时,麦克风工作得很好,当我使用以下使用 PyAudio 但不使用 SpeechRecognition
的代码时,它也能正常工作import pyaudio
import wave
from array import array
FORMAT=pyaudio.paInt16
CHANNELS=2
RATE=44100*2
CHUNK=1024
RECORD_SECONDS=5
FILE_NAME="RECORDING.wav"
audio=pyaudio.PyAudio() #instantiate the pyaudio
#recording prerequisites
stream=audio.open(format=FORMAT,channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)
#starting recording
frames=[]
for i in range(0,int(RATE/CHUNK*RECORD_SECONDS)):
data=stream.read(CHUNK)
data_chunk=array('h',data)
vol=max(data_chunk)
if(vol>=500):
print("something said")
frames.append(data)
else:
print("nothing")
print("\n")
#end of recording
stream.stop_stream()
stream.close()
audio.terminate()
#writing to file
wavfile=wave.open(FILE_NAME,'wb')
wavfile.setnchannels(CHANNELS)
wavfile.setsampwidth(audio.get_sample_size(FORMAT))
wavfile.setframerate(RATE)
wavfile.writeframes(b''.join(frames))#append frames recorded to file
wavfile.close()
但是当我尝试使用以下代码时
import speech_recognition as sr
import pyaudio
r = sr.Recognizer()
mic = sr.Microphone(device_index=1)
with mic as source:
r.adjust_for_ambient_noise(source)
audio = r.listen(source, timeout=5)
print(r.recognize_google(audio))
有了这个 speaker/mic,它就会无限期地挂起。我用过 USB 麦克风,切换 device_index,效果很好。当我 list_microphone_names() 时,我可以在我的选项列表中看到蓝牙麦克风 'Headset Microphone (Bluetooth H' 以及我的 USB 麦克风 'Microphone (Blue Snowball)',但是当我 list_working_microphones() 时,蓝牙麦克风是走了。本质上,它识别出该设备存在但在 r.listen().
期间不会通过它听到音频有人知道是什么原因造成的吗?
我深入研究了 Recognizer.listen() 的源代码,发现问题与它用作开始和停止录制音频的阈值的 "energy" 级别有关。默认能量水平(由 audioop.rms(buffer, source.SAMPLE_WIDTH) 测量)用作确定某人是否在说话的截止值是 300,并且会降低直到音频水平第一次突破此阈值.然后,在录制时,它会检查音频是否有多个并发实例低于截止值(pause_buffer_count,默认值为 35)以结束一个短语。
这个问题是我使用的蓝牙麦克风似乎吸收了很多环境噪音(and/or 只是热垃圾),即使我不说话也会有 100-400 的能量,所以程序会认为我还在说话。我通过在尝试收听音频之前让 adjust_for_ambient_noise 运行 停留更长的时间来解决此问题。
我的第二个问题是在说话之前等待 adjust_for_ambient_noise 到 运行 的时间不够长,这会切断我的短语,有时低于转录的音频长度限制,这会导致它静默尝试重新记录声明。在 adjust_for_ambient_noise.
之后用一个简单的 print("speak now") 解决了这个问题