确定 JS 中的频率 AudioContext.analyserNode

Determining Frequencies in JS AudioContext.analyserNode

背景

我的目标是创建一个基于 JavaScript 的网络应用程序来分析和显示音频源中的频率信息,包括页面内源(<audio> 标记)和从客户端麦克风流出的信号.我正在路上:)

作为一名狂热的萨克斯演奏者,我的目标之一是通过检查高音分音相对于基本音高的分布,比较不同萨克斯演奏者和乐器的音调中固有的信息。简而言之,我想推导出为什么不同的乐器演奏家和乐器品牌即使在演奏相同的音高时听起来也不同。此外,我想通过相同的 player/instrument.

将各种 'alternative fingerings' 的调音和频率分布与传统或标准指法进行比较

使用 JS AudioContext.analyserNode 访问和显示频率信息是一件相当微不足道的事情,我将其与 HTML5 Canvas 元素结合使用来创建频率图或 'winamp-style bargraph' 类似的找到 'Visualizations with Web Audio API' @ MDN.

问题

为了实现我的目标,我需要识别音频源中的一些特定信息,特别是基音的频率 in Hertz,以便直接比较 instrumentalists/instruments,以及源的频率范围,以确定我感兴趣的声音的频谱。该信息可在下面的变量 fData 中找到...

// example...
var APP = function() {
    // ...select source and initialise etc..

    var aCTX = new AudioContext(),
        ANAL = aCTX.createAnalyser(),
        rANF = requestAnimationFrame,
        ucID = null;

    ANAL.fftSize = 2048;

    function audioSourceStream(stream) {

        var source = aCTX.createMediaStreamSource(stream);
        source.connect(ANAL);

        var fData = new Uint8Array(ANAL.frequencyBinCount);

        (function updateCanvas() {
            ANAL.getByteFrequencyData(fData);

            // using 'fData' to paint HTML5 Canvas

            ucID = rANF(updateCanvas);
        }());
    }
};

问题

虽然我可以通过 <canvas> API 轻松地将 fData 表示为条形图或折线图等,这样声源的基频和上半部分就很清楚了可见,目前我还不能确定...

没有这个我就无法开始识别源的主频率(为了比较调音与传统音乐音高名称的变化)and/or突出显示或排除所表示光谱的区域(放大或缩小等)以进行更详细的检查。

我的目的是通过音高(音符名称)和频率 (Hz) 突出显示主频率,并在鼠标悬停时显示图表中任何单个条的频率。 N.B。我已经有一个数据对象,其中存储了 C0-B8 之间半音音高的所有频率 (Hz)。

尽管阅读了 AudioContext.analyserNode specification 好几遍,并且几乎阅读了本网站和 MDN 上关于此主题的每一页,但我仍然对如何完成这部分任务没有明确的想法。

基本上,如何将 Uint8Array() fData 中的值转换为以赫兹为单位的每个频率的振幅表示,fData数组元素反映。

如有任何建议、建议或鼓励,我们将不胜感激。

BP

因此,首先要了解,FFT 的输出将为您提供一系列频率范围的相对强度,而不是精确的频率。

这些范围分布在频谱 [0,奈奎斯特频率] 中。奈奎斯特频率是采样率的二分之一。因此,如果您的 AudioContext.sampleRate 是 48000(赫兹),您的频率范围将跨越 [0,24000](也以赫兹为单位)。

如果您在 AnalyserNode 中为 fftSize 使用默认值 2048,则 frequencyBinCount 将为 1024(它始终是 FFT 大小的一半)。这意味着每个频率仓将代表 (24000/1024 = 23.4) 大约 23.4Hz 的范围 - 因此频率仓看起来像这样(即兴的,此处可能会出现舍入误差):

fData[0] is the strength of frequencies from 0 to 23.4Hz.
fData[1] is the strength of frequencies from 23.4Hz to 46.8Hz.
fData[2] is the strength of frequencies from 46.8Hz to 70.2Hz.
fData[3] is the strength of frequencies from 70.2Hz to 93.6Hz.
...
fData[511] is the strength of frequencies from 11976.6Hz to 12000Hz.
fData[512] is the strength of frequencies from 12000Hz to 12023.4Hz.
...
fData[1023] is the strength of frequencies from 23976.6Hz to 24000Hz.

到目前为止有意义吗?

通常出现的下一个评论是 "Wait a second - this is less precise, musically speaking, in the bass registers (where 23.4 Hz can cover a whole OCTAVE) than the treble registers (where there are hundreds of Hz between notes)." 对此我说:是的,是的。这就是 FFT 的工作原理。在较高的寄存器中,更容易看到调音差异。

NEXT 下一条评论通常是 "wow, I need a MASSIVE fftSize to be precise in the bass registers." 通常,答案是 "no, you probably shouldn't do it that way" - 在某些时候,自相关比 FFT 更有效,而且更精确。

希望这能帮助您指明正确的方向,如果有后续请添加评论。