如何使用 NumPy 将 sRGB 格式转换为 NV12 格式?
How to convert sRGB to NV12 format using NumPy?
NV12 格式定义了 YUV 颜色的特定颜色通道排序 space 420 子采样。
NV12 格式主要用于视频 encoding/decoding 管道。
NV12 is a biplanar format with a full sized Y plane followed by a single chroma plane with weaved U and V values. NV21 is the same but with weaved V and U values. The 12 in NV12 refers to 12 bits per pixel. NV12 has a half width and half height chroma channel, and therefore is a 420 subsampling.
在NV12的上下文中,YUV格式主要指的是YCbCr颜色space.
NV12 元素是每个元素 8 位(uint8
类型)。
在 post 上下文中,YUV 元素在 "limited range" 标准中:Y 范围是 [16, 235],U,V 范围是 [16, 240]。
sRGB(标准红绿蓝)是PC系统使用的标准颜色space。
在 post 上下文中,sRGB 颜色分量范围是 [0, 255](uint8
类型)。
RGB 元素排序与 post 无关(假设有 3 个颜色平面)。
目前至少有 2 种可能的 YCbCr 格式应用 NV12:
NV12 元素排序示例:
YYYYYY
YYYYYY
UVUVUV
RGB 到 NV12 的转换可分为以下阶段:
- 颜色 space 转换 - 从 sRGB 转换为 YUV 颜色 space。
- 色度下采样 - 将 U、V 通道在每个轴上缩小 x2 倍(从 YUV444 转换为 YUV420)。
- 色度元素交错 - 将 U、V 元素排列为 U、V、U、V...
下图说明了应用 6x6 像素图像大小的转换阶段:
我们如何使用 NumPy 将 sRGB 转换为 NV12?
注:
问题涉及演示转换过程的 Python 实现(post 不适用于 OpenCV 实现等现有功能)。
使用 NumPy 将 sRGB 格式转换为 NV12 格式
post 的目的是演示转换过程。
下面的 Python 实现使用 NumPy,并有意避免使用 OpenCV。
RGB 到 NV12 的转换阶段:
- 颜色 space 转换 - 从 sRGB 转换为 YUV 颜色 space:
使用 sRGB 到 YCbCr 的转换公式。
将每个 RGB 三元组乘以 3x3 转换矩阵,并添加一个包含 3 个偏移量的向量。
post 显示 BT.709 和 BT.601 转换(唯一的区别是系数矩阵)。
- 色度下采样 - 在每个轴上将 U、V 通道缩小 x2(从 YUV444 转换为 YUV420)。
该实现使用 bi-linear 插值在每个轴上将 U、V 的大小调整为 0.5。
注意:bi-linear插值不是最佳的下采样方法,但通常已经足够了。
代码不使用 cv2.resize
,而是使用每 2x2 像素的平均值(结果相当于 bi-linear 插值)。
注意:如果输入分辨率在两个维度上均不均匀,则实施失败。
- 色度元素交错 - 将 U、V 元素排列为 U、V、U、V...
通过数组索引操作实现。
这是将 RGB 转换为 NV12 标准的 Python 代码示例:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
do_use_bt709 = True; # True for BT.709, False for BT.601
RGB = mpimg.imread('rgb_input.png')*255.0 # Read RGB input image, multiply by 255 (set RGB range to [0, 255]).
R, G, B = RGB[:, :, 0], RGB[:, :, 1], RGB[:, :, 2] # Split RGB to R, G and B numpy arrays.
rows, cols = R.shape
# I. Convert RGB to YUV (convert sRGB to YUV444)
#################################################
if do_use_bt709:
# Convert sRGB to YUV, BT.709 standard
# Conversion formula used: 8 bit sRGB to "limited range" 8 bit YUV (BT.709).
Y = 0.18258588*R + 0.61423059*G + 0.06200706*B + 16.0
U = -0.10064373*R - 0.33857195*G + 0.43921569*B + 128.0
V = 0.43921569*R - 0.39894216*G - 0.04027352*B + 128.0
else:
# Convert sRGB to YUV, BT.601 standard.
# Conversion formula used: 8 bit sRGB to "limited range" 8 bit YUV (BT.601).
Y = 0.25678824*R + 0.50412941*G + 0.09790588*B + 16.0
U = -0.14822290*R - 0.29099279*G + 0.43921569*B + 128.0
V = 0.43921569*R - 0.36778831*G - 0.07142737*B + 128.0
# II. U,V Downsampling (convert YUV444 to YUV420)
##################################################
# Shrink U and V channels by a factor of x2 in each axis (use bi-linear interpolation).
#shrunkU = cv2.resize(U, dsize=(cols//2, rows//2), interpolation=cv2.INTER_LINEAR)
#shrunkV = cv2.resize(V, dsize=(cols//2, rows//2), interpolation=cv2.INTER_LINEAR)
# Each element of shrunkU is the mean of 2x2 elements of U
# Result is equvalent to resize by a factor of 0.5 with bi-linear interpolation.
shrunkU = (U[0: :2, 0::2] + U[1: :2, 0: :2] + U[0: :2, 1: :2] + U[1: :2, 1: :2]) * 0.25
shrunkV = (V[0: :2, 0::2] + V[1: :2, 0: :2] + V[0: :2, 1: :2] + V[1: :2, 1: :2]) * 0.25
# III. U,V Interleaving
########################
# Size of UV plane is half the number of rows, and same number of columns as Y plane.
UV = np.zeros((rows//2, cols)) # Use // for integer division.
# Interleave shrunkU and shrunkV and build UV palne (each row of UV plane is u,v,u,u,v...)
UV[:, 0 : :2] = shrunkU
UV[:, 1 : :2] = shrunkV
# Place Y plane at the top, and UV plane at the bottom (number of rows NV12 matrix is rows*1.5)
NV12 = np.vstack((Y, UV))
# Round NV12, and cast to uint8 (use floor(x+0.5) instead of round to avoid "bankers rounding").
NV12 = np.floor(NV12 + 0.5).astype('uint8')
# Write NV12 array to binary file
NV12.tofile('nv12_output.raw')
# Display NV12 result (display as Grayscale image).
plt.figure()
plt.axis('off')
plt.imshow(NV12, cmap='gray', interpolation='nearest')
plt.show()
示例 RGB 输入图像:
NV12 结果(显示为灰度图像):
NV12 格式定义了 YUV 颜色的特定颜色通道排序 space 420 子采样。
NV12 格式主要用于视频 encoding/decoding 管道。
NV12 is a biplanar format with a full sized Y plane followed by a single chroma plane with weaved U and V values. NV21 is the same but with weaved V and U values. The 12 in NV12 refers to 12 bits per pixel. NV12 has a half width and half height chroma channel, and therefore is a 420 subsampling.
在NV12的上下文中,YUV格式主要指的是YCbCr颜色space.
NV12 元素是每个元素 8 位(uint8
类型)。
在 post 上下文中,YUV 元素在 "limited range" 标准中:Y 范围是 [16, 235],U,V 范围是 [16, 240]。
sRGB(标准红绿蓝)是PC系统使用的标准颜色space。
在 post 上下文中,sRGB 颜色分量范围是 [0, 255](uint8
类型)。
RGB 元素排序与 post 无关(假设有 3 个颜色平面)。
目前至少有 2 种可能的 YCbCr 格式应用 NV12:
NV12 元素排序示例:
YYYYYY
YYYYYY
UVUVUV
RGB 到 NV12 的转换可分为以下阶段:
- 颜色 space 转换 - 从 sRGB 转换为 YUV 颜色 space。
- 色度下采样 - 将 U、V 通道在每个轴上缩小 x2 倍(从 YUV444 转换为 YUV420)。
- 色度元素交错 - 将 U、V 元素排列为 U、V、U、V...
下图说明了应用 6x6 像素图像大小的转换阶段:
我们如何使用 NumPy 将 sRGB 转换为 NV12?
注:
问题涉及演示转换过程的 Python 实现(post 不适用于 OpenCV 实现等现有功能)。
使用 NumPy 将 sRGB 格式转换为 NV12 格式
post 的目的是演示转换过程。
下面的 Python 实现使用 NumPy,并有意避免使用 OpenCV。
RGB 到 NV12 的转换阶段:
- 颜色 space 转换 - 从 sRGB 转换为 YUV 颜色 space:
使用 sRGB 到 YCbCr 的转换公式。
将每个 RGB 三元组乘以 3x3 转换矩阵,并添加一个包含 3 个偏移量的向量。
post 显示 BT.709 和 BT.601 转换(唯一的区别是系数矩阵)。 - 色度下采样 - 在每个轴上将 U、V 通道缩小 x2(从 YUV444 转换为 YUV420)。
该实现使用 bi-linear 插值在每个轴上将 U、V 的大小调整为 0.5。
注意:bi-linear插值不是最佳的下采样方法,但通常已经足够了。
代码不使用cv2.resize
,而是使用每 2x2 像素的平均值(结果相当于 bi-linear 插值)。
注意:如果输入分辨率在两个维度上均不均匀,则实施失败。 - 色度元素交错 - 将 U、V 元素排列为 U、V、U、V...
通过数组索引操作实现。
这是将 RGB 转换为 NV12 标准的 Python 代码示例:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
do_use_bt709 = True; # True for BT.709, False for BT.601
RGB = mpimg.imread('rgb_input.png')*255.0 # Read RGB input image, multiply by 255 (set RGB range to [0, 255]).
R, G, B = RGB[:, :, 0], RGB[:, :, 1], RGB[:, :, 2] # Split RGB to R, G and B numpy arrays.
rows, cols = R.shape
# I. Convert RGB to YUV (convert sRGB to YUV444)
#################################################
if do_use_bt709:
# Convert sRGB to YUV, BT.709 standard
# Conversion formula used: 8 bit sRGB to "limited range" 8 bit YUV (BT.709).
Y = 0.18258588*R + 0.61423059*G + 0.06200706*B + 16.0
U = -0.10064373*R - 0.33857195*G + 0.43921569*B + 128.0
V = 0.43921569*R - 0.39894216*G - 0.04027352*B + 128.0
else:
# Convert sRGB to YUV, BT.601 standard.
# Conversion formula used: 8 bit sRGB to "limited range" 8 bit YUV (BT.601).
Y = 0.25678824*R + 0.50412941*G + 0.09790588*B + 16.0
U = -0.14822290*R - 0.29099279*G + 0.43921569*B + 128.0
V = 0.43921569*R - 0.36778831*G - 0.07142737*B + 128.0
# II. U,V Downsampling (convert YUV444 to YUV420)
##################################################
# Shrink U and V channels by a factor of x2 in each axis (use bi-linear interpolation).
#shrunkU = cv2.resize(U, dsize=(cols//2, rows//2), interpolation=cv2.INTER_LINEAR)
#shrunkV = cv2.resize(V, dsize=(cols//2, rows//2), interpolation=cv2.INTER_LINEAR)
# Each element of shrunkU is the mean of 2x2 elements of U
# Result is equvalent to resize by a factor of 0.5 with bi-linear interpolation.
shrunkU = (U[0: :2, 0::2] + U[1: :2, 0: :2] + U[0: :2, 1: :2] + U[1: :2, 1: :2]) * 0.25
shrunkV = (V[0: :2, 0::2] + V[1: :2, 0: :2] + V[0: :2, 1: :2] + V[1: :2, 1: :2]) * 0.25
# III. U,V Interleaving
########################
# Size of UV plane is half the number of rows, and same number of columns as Y plane.
UV = np.zeros((rows//2, cols)) # Use // for integer division.
# Interleave shrunkU and shrunkV and build UV palne (each row of UV plane is u,v,u,u,v...)
UV[:, 0 : :2] = shrunkU
UV[:, 1 : :2] = shrunkV
# Place Y plane at the top, and UV plane at the bottom (number of rows NV12 matrix is rows*1.5)
NV12 = np.vstack((Y, UV))
# Round NV12, and cast to uint8 (use floor(x+0.5) instead of round to avoid "bankers rounding").
NV12 = np.floor(NV12 + 0.5).astype('uint8')
# Write NV12 array to binary file
NV12.tofile('nv12_output.raw')
# Display NV12 result (display as Grayscale image).
plt.figure()
plt.axis('off')
plt.imshow(NV12, cmap='gray', interpolation='nearest')
plt.show()
示例 RGB 输入图像:
NV12 结果(显示为灰度图像):