我需要分析许多音频 WAV 文件的特征噪声,想法?
I need to analyse many audio WAV files for characteristic noise, ideas?
我需要能够分析(搜索)数百个 WAV 文件并检测但不消除静态噪声。正如目前所做的那样,我必须倾听每个对话并手动找到特征 noise/static,这会花费太多时间。理想情况下,我需要一个程序来读取每个新的 WAV 文件并能够检测静态噪声的特征签名,例如白噪声或完整音频带的突发周期、高振幅噪声(如 AM 无线电噪声超过 phone 对话,如白噪声墙)或在正常语音背景下的突发高频高振幅(如 phone 线上的噼啪声)。我不需要消除噪音,只需检测它并标记录音以进行进一步的故障排除。想法?
我可以听录音并找到静电或噼啪声,但这需要时间。我需要一个自动或批处理过程,它可以 运行 自己标记有问题的通话录音(phone PBX 的 WAV 文件)。这些是 SIP 和模拟对话,具体取决于对话的部分,因此 RTSP/SIP 数据包分析可能是一个选项,但原始 WAV 文件是最简单的。我可以使用 Audacity,但这仍然需要打开每个文件并查看音频频谱的可视化表示,只比听每个电话快一点,但仍然很麻烦。
我目前没有用于此任务的代码或方法。我只是简单地听听每个通话的 wav 文件以找出噪音。
我需要一个批处理的 Wav 文件搜索,它可以呈现包含特征噪音或静态或录音 phone 对话的噼啪声的 wav 文件录音。
除非您可以告诉程序噪音是什么样的,否则 运行 任何类型的批处理都将具有挑战性。我面临着类似的挑战,这促使我开发(免费和开源)软件来帮助用户进行音频探索、分析和信号分离:
- 应用:https://audioexplorer.online/
- 文档:https://tracek.github.io/audio-explorer/
- 源代码:https://github.com/tracek/audio-explorer
本质上,它将音频可视化为二维散点图,而不仅仅是 "linear",如波形图或频谱图。当您上传音频时,会发生以下情况:
- 根据您设置的阈值检测起始(基于 high-frequency 来自 aubio 的内容算法)。如果需要全部,请将其设置为
None
。
- 针对每个音频片段,根据您的选择计算音频特征。没有通用的最佳功能集,一切都取决于应用程序。您可以尝试使用例如
Pitch statistics
。考虑为带通滤波器和样本长度设置适当的值(这是我们将要使用的音频片段的长度)。将来可以动态建立样本长度。查看 docs 了解更多信息。
- 结果是每个片段都有很多特征,例如6 或 60。这意味着我们有
k
维(其中 k
是特征数)结构,然后我们使用您选择的降维算法将其投影到 2d space。 Uniform Manifold Approximation and Projection 是一个不错的选择。
- 理论上,由此产生的嵌入应该使得相似的声音(根据我们选择的特征)靠得更近,而不同的声音更远。你的噪音现在应该与你的 "not noise" 分开并形成集群。
- 当您将鼠标悬停在图表上时,right-upper 角会出现一组图标。一种是套索选择。用它来标记点,检查频谱图等。下载 table 具有描述该信号的特征。在那一刻,您还可以使用与 Audacity 类似的方式 降低噪声 (出现额外的按钮) - 它分析频谱并通过一些平滑降低这些频率。
它现在不能完全解决您的问题,但可以大大减少工作量。完成数百次波形可能会花费一天的大部分时间,但您会完成的。想要自动化吗?还有我同时开发的CLI(command-line接口)。在 not-too-distant 未来,它应该采用您标记为 noise 和 signal 的内容,然后使用有监督的机器学习来批量处理所有内容模式。
建议/反馈?在 GitHub.
上提出问题
我需要能够分析(搜索)数百个 WAV 文件并检测但不消除静态噪声。正如目前所做的那样,我必须倾听每个对话并手动找到特征 noise/static,这会花费太多时间。理想情况下,我需要一个程序来读取每个新的 WAV 文件并能够检测静态噪声的特征签名,例如白噪声或完整音频带的突发周期、高振幅噪声(如 AM 无线电噪声超过 phone 对话,如白噪声墙)或在正常语音背景下的突发高频高振幅(如 phone 线上的噼啪声)。我不需要消除噪音,只需检测它并标记录音以进行进一步的故障排除。想法?
我可以听录音并找到静电或噼啪声,但这需要时间。我需要一个自动或批处理过程,它可以 运行 自己标记有问题的通话录音(phone PBX 的 WAV 文件)。这些是 SIP 和模拟对话,具体取决于对话的部分,因此 RTSP/SIP 数据包分析可能是一个选项,但原始 WAV 文件是最简单的。我可以使用 Audacity,但这仍然需要打开每个文件并查看音频频谱的可视化表示,只比听每个电话快一点,但仍然很麻烦。
我目前没有用于此任务的代码或方法。我只是简单地听听每个通话的 wav 文件以找出噪音。
我需要一个批处理的 Wav 文件搜索,它可以呈现包含特征噪音或静态或录音 phone 对话的噼啪声的 wav 文件录音。
除非您可以告诉程序噪音是什么样的,否则 运行 任何类型的批处理都将具有挑战性。我面临着类似的挑战,这促使我开发(免费和开源)软件来帮助用户进行音频探索、分析和信号分离:
- 应用:https://audioexplorer.online/
- 文档:https://tracek.github.io/audio-explorer/
- 源代码:https://github.com/tracek/audio-explorer
本质上,它将音频可视化为二维散点图,而不仅仅是 "linear",如波形图或频谱图。当您上传音频时,会发生以下情况:
- 根据您设置的阈值检测起始(基于 high-frequency 来自 aubio 的内容算法)。如果需要全部,请将其设置为
None
。 - 针对每个音频片段,根据您的选择计算音频特征。没有通用的最佳功能集,一切都取决于应用程序。您可以尝试使用例如
Pitch statistics
。考虑为带通滤波器和样本长度设置适当的值(这是我们将要使用的音频片段的长度)。将来可以动态建立样本长度。查看 docs 了解更多信息。 - 结果是每个片段都有很多特征,例如6 或 60。这意味着我们有
k
维(其中k
是特征数)结构,然后我们使用您选择的降维算法将其投影到 2d space。 Uniform Manifold Approximation and Projection 是一个不错的选择。 - 理论上,由此产生的嵌入应该使得相似的声音(根据我们选择的特征)靠得更近,而不同的声音更远。你的噪音现在应该与你的 "not noise" 分开并形成集群。
- 当您将鼠标悬停在图表上时,right-upper 角会出现一组图标。一种是套索选择。用它来标记点,检查频谱图等。下载 table 具有描述该信号的特征。在那一刻,您还可以使用与 Audacity 类似的方式 降低噪声 (出现额外的按钮) - 它分析频谱并通过一些平滑降低这些频率。
它现在不能完全解决您的问题,但可以大大减少工作量。完成数百次波形可能会花费一天的大部分时间,但您会完成的。想要自动化吗?还有我同时开发的CLI(command-line接口)。在 not-too-distant 未来,它应该采用您标记为 noise 和 signal 的内容,然后使用有监督的机器学习来批量处理所有内容模式。
建议/反馈?在 GitHub.
上提出问题