如何根据静音拆分音频文件并在 python 中重叠最后说的 2 秒

Question

目前我正在使用这段代码将音频文件切成小块：

sound = AudioSegment.from_mp3("1.WAV")
f=open("decoded.txt", "a+")
chunks = split_on_silence(sound,min_silence_len=280,silence_thresh=-33,keep_silence=150)

for i, chunk in enumerate(chunks):
    print(i)
    print("\n")
    chunk.export(folder+"/chunk{0}.wav".format(i), format="wav")
    AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), folder+"/chunk{0}.wav".format(i))
    r = sr.Recognizer()
    with sr.AudioFile(AUDIO_FILE) as source:
        print("Listening...")
        audio = r.record(source)  # read the entire audio file
        f.write((r.recognize_google(audio) +" "))

f.close();

这会创建根据静音分割的文件块...但我想要的是，每当分割音频时，下一个片段从 2 秒后开始，这样任何可能被剪切的词都可能出现。比如如果静默时间是 10、13、18、22，那么我的切片应该是 0-10,8-13,11-18,16-22。我正在使用 pydub 根据静音进行拆分。我可以在 pydub 中更改一些东西吗？或者是否有其他一些包可以做到这一点？

Answer 1

由于每个块都是在静默时拆分的，因此它不会有前 2 秒的数据。
但是，您可以做的是，复制前一个块 (n-1) 的最后 2 秒并与下一个块 (nth) 合并，跳过第一个块。

伪代码如下，

n1 + n2 + n3 + ...n #audio chunks that are split on silence
n1 + (<last 2 seconds of n1> + n2) + (<last 2 seconds of n2> + n3) + ...

您还可以使用 keep_silence 来了解什么值对您的要求有意义。

另一个想法是使用 pydub.silence.detect_nonsilent() 找到静音范围并自行决定在何处分割原始音频。

我会把它留给你作为编码练习。

如何根据静音拆分音频文件并在 python 中重叠最后说的 2 秒

How to split a audio file based on silence and overlap the last say 2 seconds in python

python

audio

split

pydub