图像数字化与声音数字化 (PCM) 有何不同?

How does image digitalization differ from sound digitalization (PCM)?

我正在尝试了解声音和图像的数字化。 据我所知,它们都需要将模拟信号转换为数字信号。两者都应该使用采样和量化。

图像的获取可以概括为空间采样和 conversion/quantization 步骤。 (x,y) 上的空间采样取决于像素大小。数据(在第三个轴上,z)是芯片上光电效应产生的电子数。这些电子被转换为 ADU(模拟数字单元),然后转换为比特。量化的是灰度级的光强度,例如 8 位数据将给出 2^8 = 256 级灰度。

由于空间采样(分辨率)和强度量化(灰度级),图像丢失了信息。

除非您谈论的是视频,否则图像不会以 Hz(1/次)为单位进行采样,而是以 1/距离为单位进行采样。重要的是验证香农-奈奎斯特定理以避免混叠。您能够获得的空间频率直接取决于光学设计。必须针对此设计分别选择像素大小以避免锯齿。

编辑:在下面的示例中,我绘制了一个正弦函数(white/black 条纹)。在左侧,信号被正确采样,在右侧,它被欠采样了 4 倍。这是相同的信号,但由于像素较大(采样较小),您的数据会出现混叠。这里的条纹是水平的,但是垂直的也有同样的效果。

图像采样的空间轴没有共同的标准。一个 20 兆像素的传感器或相机将以与 2 兆像素的传感器或相机完全不同的空间分辨率(以每毫米像素数或每度视角像素数)产生图像。这些图像通常会重新缩放到另一个非通用标准分辨率以供查看(72 ppi、300 ppi、"Retina"、SD/HDTV、CCIR-601、“4k”等)

对于音频,48k 开始变得比 44.1ksps 更普遍。 (在 iPhone 等设备上)

("a nice thing about standards is that there are so many of them")

原始格式的幅度缩放也没有单一标准。当转换或重新量化为存储格式时,8 位、10 位和 12 位量化是最常见的 RGB 分色。 (JPEG、PNG 等格式)

音频和图像的频道格式不同。 X、Y,其中 X 是时间,Y 是振幅,仅适用于单声道音频。立体声通常需要 T、L、R 来表示时间、左声道和右声道。图像通常是 X、Y、R、G、B 或 5 维张量,其中 X、Y 是空间位置坐标,RGB 是该位置的颜色强度。图像强度可能与某些镜头的每个入射立体角在某些可见 EM 频率范围内每个快门持续时间的入射光子数有些相关(取决于伽玛校正等)。

音频的低通滤波器和图像的拜耳滤波器通常用于使信号更接近带宽限制,因此可以在采样时减少混叠 noise/artifacts。