音频数据样本代表什么?

What does a sample of audio data represent?

我想知道单个音频数据样本(未压缩的 PCM)代表什么。

它是一个数字,但是这个数字到底是什么,它是如何转换回音频的?

比如4位样本,0代表绝对静音,15代表最大音量吗?

如果是音量,我们说的频率是多少?关于频率的信息是如何存储的?

在歌曲中我们可以同时听到各种乐器(频率),这意味着每个频率都以某种方式存储在一个样本中。这是怎么做到的?

音频只是一条随着时间 left/right 摆动 up/down 的曲线。在给定的时间点,样本是曲线高度的度量。沉默是当曲线不摆动时......它只是变得平坦......在值为零且样本值为 0(更准确地说是其范围从最大值到最小值的中间值)......当曲线达到其最大高度时向上或向下那段音频是最响亮的

归一化的概念很重要……曲线值的绝对范围(最大向上或向下)是任意的……可以是任何东西……假设最大为 15,最小为 0……记住沉默是没有摇摆所以最大的中间 up/down 沉默大约是 7

曲线可以编码成任意数量的位...这大致映射到您将曲线切成多少条水平线...更多的线更多位因此曲线高度样本值的准确性更高

A sin or cos curve被认为是纯音... Joseph Fourier证明了任意曲线(音频或其他)可以以(A)各种音量(max up/down) (B) 不同的频率 (C) 不同的相位偏移...有趣的是,这个变换在两个方向上都有效:从任意形状的曲线到上面的一组 (A/B/C) 或从一组 ( A/B/C) 回到合成任意形状的曲线(这就是音频合成器的工作原理)

关于频率存储的信息被烘焙到曲线形状中......它都是关于曲线摆动的频率up/down......懒惰的摆动需要很长时间才能从中线下方到上方交叉低频...一排紧密间隔的波浪形暗示着高频尖叫

当麦克风记录多人同时讲话或各种乐器都发出自己的声音时,我们有许多同步频率,但录音不知何故就可以工作 - 如何?想一想麦克风内部发生的事情(或你的公寓 eardrum )......它的线圈可以被认为是一个平面(一个 2D 表面),它只能在一段时间内上下晃动......要么只移动来回......这是一条任意曲线......一条曲线在某个时间点具有从最大值到最小值的高度值