信号处理:有人可以为我解释不同类型的频谱图吗?

Signal Processing: Can someone explain for me the different type of spectrogram?

我是信号处理的新手,我搜索了 Google 频谱图的许多术语,但我找不到任何关于频谱图类型差异的内容。有谁能帮我解释下图中diffenrent spectrogram的定义和含义吗?谢谢!

spectrogram

P/s: 频谱图和色度有什么区别?什么时候使用色度?

chroma

我相信你一定看过维基百科:https://en.wikipedia.org/wiki/Spectrogram

不要与频谱图名称混淆,它们是根据它们所代表的内容或它们的代表方式来命名的。为了完全理解频谱图,您必须阅读大量内容。从这个开始: http://www.phon.ucl.ac.uk/courses/spsci/acoustics/week1-10.pdf

Linear or log 表示线性或对数缩放。一些解释在这里: http://manual.audacityteam.org/man/spectrogram_view.html

此处提到了功率谱图示例。为此,您必须了解功率谱密度: https://www.mathworks.com/matlabcentral/answers/122472-how-to-get-the-power-spectral-density-from-a-spectrogram-in-a-given-frequency-range?s_tid=gn_loc_drop

Constant-Q 是一种时域到频域的变换,如下所述: https://en.wikipedia.org/wiki/Constant-Q_transform 它与 FFT 不同。

灰度就是用灰色来更容易观察频谱图

tempogram 是包含音乐信号的音频中节奏的视觉表示。工具箱的一个例子在这里: https://www.audiolabs-erlangen.de/resources/MIR/tempogramtoolbox/

Chroma 是声学中用来表示声音 'color' 的技术术语,如下所述: 'http://acousticslab.org/psychoacoustics/PMFiles/Module05.htm#7b' "Pitch chroma: The distinctive quality of a specific tone, separating it from the rest of the tones within an octave. It describes perceptual 'differences'/'distances' of pitches within an octave and the perceptual sameness of pitches separated by one or more full octaves. It is reflected in the fact that the different note names (e.g. C, D, E, F, G, A, B, C, D ...) repeat periodically for every 2/1 increase in frequency (i.e. every octave) with the addition of a subscript (e.g. C4) to indicate how high or low this pitch is relative to some reference pitch. In other words, a numeric subscript difference between two notes that share the same pitch chroma (e.g. C4 vs. C5) reflects a pitch height difference of one or more octaves between two notes."

色度与半音音阶,大话!

Chroma 是 chroma feature and refers to the chromatic scale, that is the set composed of the 7 white keys of the piano (C, D, E, F, G, A, B) and the 5 black keys between them (sharps and flats). While this sounds big business, there is nothing to worry about, chroma features is the hype wording for saying notes or pitches, and the chromatic scale is the ordinary Western music scale we use today. More about "chroma features analysis 的快捷方式。


半音阶的十二个色度。 Source

这个半音音阶沿键盘重复,但每次音阶从左到右(低音到高音)重复时,第一个键(C)的实际频率加倍。这个 2/1 geometric interval is called an octave (from octavus, eighth, 8th white note counted from the interval start key). All intervals between notes are measured as ratios, for example an interval of 5th (e.g. C to G) is equal to 3/2 whatever the octave (the actual frequency difference in Hz increases with octaves). This is important to know to understand the y scales used for spectrograms (representations of frequencies contained in a an acoustic signal using the actual number of Hz) and chromagrams(相同但将 Hz 替换为音符名称:C、C♯、D、Eb、E、F、F♯、G、Ab、A、Bb、B)。

在解释完图形后,您可以继续阅读有关半音阶的内容。

频谱图

频谱图是 3D 表示,x 轴是时间,y 轴是频率,z 轴通常是振幅或功率。功率是振幅的平方。 Z值用网格点(x,y)处像素点的颜色表示,类似于地理地图,颜色表示高度。

任何轴,x、y 或 z 都可以 logarithmic, among such logarithmic scales, the decibel (one 10th of a bel) 缩放。对于振幅它对应的变换是:dB(振幅)= 10 log(A/A0),其中A0是一个参考值,除非另有说明,否则为1。系数 10 只是给出常用比率的整数值,例如加倍是 +3dB(而 log 2 实际上是 0.3)。由于功率比是幅度比的平方,所以功率的分贝值是两倍: dB(power) = 20 log (P/P0) 其中P0也是一个参考值,一般为1.

上图显示了频率 y (Hz) 在时间 x(未显示)的功率(z 为灰度),以 dB 表示。

颜色相同:

下一张图是相同的,除了 y 尺度是对数而不是线性的,如果能量集中在低频,比如这里的 1 kHz 以下,这更有意义:

下一张图是一样的。从标题上看似乎显示的是功率而不是振幅,但视觉上没有颜色差异:

在下图中,“常数 Q”标题可能意味着功率值是使用 constant-Q transform (CQT):

计算的

之前的所有图表可能都是 discrete Fourier transforms 的结果。可能已选择 CQT 以更准确地从信号中提取音符。事实上,下图中显示了相同的数据,但 y 标记的是注释而不是频率:

它看起来像色谱图,但实际上不是,因为 y 延伸超过一个八度。

色谱图

色谱图是特定的谱图,其中y轴和z值是特定的。首先通过一个半音区间的频率段计算振幅或功率。

  • 半音音程:两个键(白键或黑键)之间的音程,其比率等于 the 12th root of 2(八度音程的比率为 2/1,包含 12 个半音程)。在音乐语言中也称为 semi-tone

所以结果是每个时间x的一组频率bins。然后将来自不同八度音阶的相同音符(C、C#、D、Eb、E、F、...)的 bin 相加,结果只有 12 octave-less 个最终 bin。

您可能想知道为什么对八度音阶求和,从而丢失实际的频率信息。它特定于音乐声音,即由共振设备产生的声音。当此类设备产生频率为 f 的声音时,它还会产生频率为 f 的倍数(2f、3f、4f)的声音,其振幅由其 musical timbre. F and its multiples are called harmonics. Multiples 2, 4, 8, etc are actually the same note than f, in a different octave. It makes sense to group them. It makes also sense to group other harmonics, which are also exact notes: This is how the Western musical scale is built, each of the 12 notes correspond to C harmonics, e.g. if f is C frequency, G frequency is 3f/2, that is the frequency of C harmonic 3 minus one octave. This construction allows to form chords, and is the base of harmony.

施加

色谱图:

未提及 z 轴代表什么,可能是相对于信号中发现的最大值(音符 E 附近)的振幅(或功率)。

最后一张图的不同之处在于 y 轴不显示信号音高,而是样本的 tempo(每分钟节拍)。

节奏图

刻度是对数的。颜色表示检测到此 BPM 数的频率。检测到多个 BPM 值,因为有几个音符比一个时间短。音符以高于实际 BPM 的频率重复。通常用于执行分析的算法还提供最可能的 BPM,采用开始分布(例如 librosa)。

有关半音阶的更多信息

过去只使用白键度数(追溯称为diatonic scale)。但是当古典歌手开始演唱为乐器制作的部分时,他们将音符转换为他们可以演唱的音域,伴奏乐器的演奏必须比作曲家的乐谱稍低或稍高。

这叫做transposition (a related concept is modulation)。然而,白键之间的频率间隔是不一样的:两个连续的白键弹奏由某个音程隔开的音符(E/F 和 B/C),而黑键隔开的白键弹奏由一个音程隔开的音符对方的两倍。

所以如果我们想高移一个音程,C变成D,D变成E,E变成s...等等,E+1 处没有音符(F 是 E+1/2,G 是 E+1/2+1)。如果我们想向上转置 2 个区间,问题就会出现在其他地方。

解决方法是加黑键,这样12个区间每个都是1/2。半音音阶就是这样出现的。

实际上这样的C#(C+1/2)应该高于C以上1/2音程,而D以下1/2音程以下应该还有一个黑键,称为Db (D 平)。 C# 用于某些移调,Cb 用于其他移调,以形成更好的共振 chords.

然而,对于现代键盘,# 和 b 合并为一个键以使键盘可玩。共享密钥的名称是什么?这取决于。对于 C#/Db,这是 C#,但对于 A#/Bb,这是 Bb。原因在于和谐,可以追溯到之前的平均律使用。

在所有刻度之间设置间隔的方式称为 temperament, and such choice to merge sharp and flat at the exact middle of the interval is the equal temperament. It makes all chords a bit wrong (inharmonic)。

音乐是一个理论和实践不断发展(并且仍在发展)的领域,这给理解概念带来了很多困难。音阶是一个热门而感人的话题,因为没有办法用单一的音律把所有的和弦都做对,一些和弦是有特权的,选择经常受到挑战和改变。措辞不符合(所以像“色度”这样的措辞仍然使用 12 度西方音阶)。