使用 Python 从音频文件中提取 F0、抖动和闪光

Extracting F0, jitter and shimmer from an audio file using Python

最近接到任务:从给定的短音频文件链(大约 5-10 秒,一个声音在一个音符上唱歌)中提取 F0(基频)、Jitter 和 Shimmer 等特征。 而且,不幸的是,我在音频信号处理方面一无是处。任何 Python 库可以帮助我轻松快速地做到这一点? 提前致谢!

您可以使用 Praat 软件来完成。 Praat 是一款音频处理软件。 Python 中有几个库允许使用 Praat。最好的是 praat-parselmouth 0.3.2,它允许您在 Python 环境中使用 prat。 https://pypi.org/project/praat-parselmouth/

你好librosa which many example online which well use and also parseImouth as said @Adrian and there's too python_speech_features。我在同一个项目中工作。

Omnizart 能够将人声输出转录为包含 f0 的 CSV 文件。抖动和微光不支持afaik。