如何在 C/C++ 中增强 YUV420P 到 RGB 的转换?
How to enhance this YUV420P to RGB conversion in C/C++?
我正在尝试将 YUV420P 写入 RGB888,因为当我将整个东西作为一个巨大的缓冲区时,Y
(大小 width*height
)然后 Cr
(大小width*height/4
) 然后 Cb
(大小 width*height/4
)。输出应该是大小为 width*height*3
.
的 RGB 缓冲区
我认为我下面的函数效率很低。例如,我使用 ceiling 函数(它不应该 return 一个 int 吗?在我的例子中它是 returning 一个 double,为什么?)而且我从未见过任何颜色转换函数使用这个函数.但这是我发现为每个 Y
.
获取相应 Cr
和 Cb
的方法
JNIEXPORT void JNICALL Java_com_example_mediacodecdecoderexample_YuvToRgb_YUVtoRBGA2(JNIEnv * env, jobject obj, jbyteArray yuv420sp, jint width, jint height, jbyteArray rgbOut)
{
//ITU-R BT.601 conversion
//
// R = 1.164*(Y-16)+1.596*(Cr-128)
// G = 1.164*(Y-16)-0.392*(Cb-128)-0.813*(Cr-128)
// B = 1.164*(Y-16)+2.017*(Cb-128)
//
int Y;
int Cr;
int Cb;
int R;
int G;
int B;
int size = width * height;
//After width*height luminance values we have the Cr values
size_t CrBase = size;
//After width*height luminance values + width*height/4 we have the Cb values
size_t CbBase = size + width*height/4;
jbyte *rgbData = (jbyte*) ((*env)->GetPrimitiveArrayCritical(env, rgbOut, 0));
jbyte* yuv = (jbyte*) (*env)->GetPrimitiveArrayCritical(env, yuv420sp, 0);
for (int i=0; i<size; i++) {
Y = rgbData[i] - 16;
Cr = rgbData[CrBase + ceil(i/4)] - 128;
Cb = rgbData[CbBase + ceil(i/4)] - 128;
R = 1.164*Y+1.596*Cr;
G = 1.164*Y-0.392*Cb-0.813*Cr;
B = 1.164*Y+2.017*Cb;
yuv[i*3] = R;
yuv[i*3+1] = G;
yuv[i*3+2] = B;
}
(*env)->ReleasePrimitiveArrayCritical(env, rgbOut, rgbData, 0);
(*env)->ReleasePrimitiveArrayCritical(env, yuv420sp, yuv, 0);
}
我这样做是因为我还没有找到一个函数可以做到这一点,我需要一个用于 MediaCodec 解码缓冲区的函数。不过就算有,我也想知道有什么可以提高我的功能的,正好学习一下。
更新:
我根据下面的答案修改了代码以使其与 ByteBuffer 一起工作:
JNIEXPORT void JNICALL Java_com_lucaszanella_mediacodecdecoderexample_YuvToRgb_YUVtoRBGA2(JNIEnv * env, jobject obj, jobject yuv420sp, jint width, jint height, jobject rgbOut)
{
//ITU-R BT.601 conversion
//
// R = 1.164*(Y-16)+1.596*(Cr-128)
// G = 1.164*(Y-16)-0.392*(Cb-128)-0.813*(Cr-128)
// B = 1.164*(Y-16)+2.017*(Cb-128)
//
char *rgbData = (char*)(*env)->GetDirectBufferAddress(env, rgbOut);
char *yuv = (char*)(*env)->GetDirectBufferAddress(env, yuv420sp);
const int size = width * height;
//After width*height luminance values we have the Cr values
const size_t CrBase = size;
//After width*height luminance values + width*height/4 we have the Cb values
const size_t CbBase = size + width*height/4;
for (int i=0; i<size; i++) {
int Y = yuv[i] - 16;
int Cr = yuv[CrBase + i/4] - 128;
int Cb = yuv[CbBase + i/4] - 128;
double R = 1.164*Y+1.596*Cr;
double G = 1.164*Y-0.392*Cb-0.813*Cr;
double B = 1.164*Y+2.017*Cb;
rgbData[i*3] = (R > 255) ? 255 : ((R < 0) ? 0 : R);
rgbData[i*3+1] = (G > 255) ? 255 : ((G < 0) ? 0 : G);
rgbData[i*3+2] = (B > 255) ? 255 : ((B < 0) ? 0 : B);
}
}
但是它正在崩溃。我没有看到任何东西被写在边界之外。有人知道吗?
更新:
如果我们使用直接字节缓冲区调用上面的代码,它就可以工作。如果缓冲区不是直接的,将无法工作。
已添加
if (rgbData==NULL) {
__android_log_print(ANDROID_LOG_ERROR, "TRACKERS", "%s", "RGB data null");
}
if (yuv==NULL) {
__android_log_print(ANDROID_LOG_ERROR, "TRACKERS", "%s", "yuv data null");
}
if (rgbData==NULL || yuv==NULL) {
return;
}
为了安全。
总之,颜色不对:
是我吗,但是你不应该从 yuv
数组读取并写入 rgbData
数组吗? 你实际上有它在您的实施中逆转了。
不需要对 i/4
等整数表达式调用 ceil
。当您实施图像处理路线时,在每个像素上调用函数只会降低性能(去过那里,做过)。也许编译器可以优化它,但为什么要冒险。
所以改变这个:
Cr = rgbData[CrBase + ceil(i/4)] - 128;
Cb = rgbData[CbBase + ceil(i/4)] - 128;
为此:
Cr = rgbData[CrBase + i/4] - 128;
Cb = rgbData[CbBase + i/4] - 128;
唯一需要注意的是,您可能希望在分配回之前将 R
、G
和 B
限制在 8 位字节范围内到 yuv
数组。这些数学方程可以产生结果 < 0
和 > 255
.
另一个微优化是在 for 循环块中声明所有变量,以便编译器有更多关于将其作为临时变量进行优化的提示。并将您的一些其他常量声明为 const
我可以建议:
JNIEXPORT void JNICALL Java_com_example_mediacodecdecoderexample_YuvToRgb_YUVtoRBGA2(JNIEnv * env, jobject obj, jbyteArray yuv420sp, jint width, jint height, jbyteArray rgbOut)
{
//ITU-R BT.601 conversion
//
// R = 1.164*(Y-16)+1.596*(Cr-128)
// G = 1.164*(Y-16)-0.392*(Cb-128)-0.813*(Cr-128)
// B = 1.164*(Y-16)+2.017*(Cb-128)
//
const int size = width * height;
//After width*height luminance values we have the Cr values
const size_t CrBase = size;
//After width*height luminance values + width*height/4 we have the Cb values
const size_t CbBase = size + width*height/4;
jbyte *rgbData = (jbyte*) ((*env)->GetPrimitiveArrayCritical(env, rgbOut, 0));
jbyte* yuv= (jbyte*) (*env)->GetPrimitiveArrayCritical(env, yuv420sp, 0);
for (int i=0; i<size; i++) {
int Y = yuv[i] - 16;
int Cr = yuv[CrBase + i/4] - 128;
int Cb = yuv[CbBase + i/4] - 128;
int R = 1.164*Y+1.596*Cr;
int G = 1.164*Y-0.392*Cb-0.813*Cr;
int B = 1.164*Y+2.017*Cb;
rgbData[i*3] = (R > 255) ? 255 : ((R < 0) ? 0 : R);
rgbData[i*3+1] = (G > 255) ? 255 : ((G < 0) ? 0 : G);
rgbData[i*3+2] = (B > 255) ? 255 : ((B < 0) ? 0 : B);
}
(*env)->ReleasePrimitiveArrayCritical(env, rgbOut, rgbData, 0);
(*env)->ReleasePrimitiveArrayCritical(env, yuv420sp, yuv, 0);
}
那么剩下要做的就是使用最大优化进行编译。编译器会处理剩下的事情。
之后,研究 SIMD 优化,一些编译器将其作为编译器开关提供(或通过 pragma 启用)。
对使用 ByteBuffer
的 selbie 答案稍作修改,后者更有用,因为它是 Java 在解码时产生的内容。
JNIEXPORT void JNICALL Java_com_example_mediacodecdecoderexample_YuvToRgb_YUVtoRBGA2(JNIEnv * env, jobject obj, jobject yuv420sp, jint width, jint height, jobject rgbOut)
{
//ITU-R BT.601 conversion
//
// R = 1.164*(Y-16)+1.596*(Cr-128)
// G = 1.164*(Y-16)-0.392*(Cb-128)-0.813*(Cr-128)
// B = 1.164*(Y-16)+2.017*(Cb-128)
//
const int size = width * height;
//After width*height luminance values we have the Cr values
const size_t CrBase = size;
//After width*height luminance values + width*height/4 we have the Cb values
const size_t CbBase = size + width*height/4;
jbyte *rgbData = (*env)->GetDirectBufferAddress(env, rgbOut);
jbyte *yuv = (*env)->GetDirectBufferAddress(env, yuv420sp);
for (int i=0; i<size; i++) {
int Y = yuv[i] - 16;
int Cr = yuv[CrBase + i/4] - 128;
int Cb = yuv[CbBase + i/4] - 128;
int R = 1.164*Y+1.596*Cr;
int G = 1.164*Y-0.392*Cb-0.813*Cr;
int B = 1.164*Y+2.017*Cb;
rgbData[i*3] = (R > 255) ? 255 : ((R < 0) ? 0 : R);
rgbData[i*3+1] = (G > 255) ? 255 : ((G < 0) ? 0 : G);
rgbData[i*3+2] = (B > 255) ? 255 : ((B < 0) ? 0 : B);
}
}
关于:
*I use the ceiling function (shouldn't it return an int? In my case it's returning a double, why?)*
语法如下:
double ceil(double x);
注意返回的类型是 double
不要自己做!不要直接在 C++ 中这样做!唯一正确的方法是为此使用硬件加速。您将节省大量电量。
基本上您可以利用 OpenGL 来实现它,它会代表您使用硬件。
很久很久以前,我为 iOS 做了这个,我确信 Android 的解决方案会非常相似。遗憾的是我(在旧公司)留下了代码,所以我无法为您提供示例代码。如果我发现有用的东西,那么我会更新这个答案。在我的代码中,YUV(以及其他几种颜色格式)直接在 openGL 视图上呈现,而 OpenGL 确实需要转换。
现在我只是指责 OpenGL,因为其他答案直接在 CPU 上执行此操作,这是一个糟糕的选择,因为它会消耗大量电池,而且您永远无法通过这种方式获得所需的性能。
编辑:
我通过一些例子在 SO 上发现了类似的问题:
免责声明:未验证此示例是最佳方法,但这是开始寻找更好解决方案的好方法。
如果出于某种原因您需要在 C++ 代码中执行此操作,则放弃浮点运算以支持对整数类型的运算。
我正在尝试将 YUV420P 写入 RGB888,因为当我将整个东西作为一个巨大的缓冲区时,Y
(大小 width*height
)然后 Cr
(大小width*height/4
) 然后 Cb
(大小 width*height/4
)。输出应该是大小为 width*height*3
.
我认为我下面的函数效率很低。例如,我使用 ceiling 函数(它不应该 return 一个 int 吗?在我的例子中它是 returning 一个 double,为什么?)而且我从未见过任何颜色转换函数使用这个函数.但这是我发现为每个 Y
.
Cr
和 Cb
的方法
JNIEXPORT void JNICALL Java_com_example_mediacodecdecoderexample_YuvToRgb_YUVtoRBGA2(JNIEnv * env, jobject obj, jbyteArray yuv420sp, jint width, jint height, jbyteArray rgbOut)
{
//ITU-R BT.601 conversion
//
// R = 1.164*(Y-16)+1.596*(Cr-128)
// G = 1.164*(Y-16)-0.392*(Cb-128)-0.813*(Cr-128)
// B = 1.164*(Y-16)+2.017*(Cb-128)
//
int Y;
int Cr;
int Cb;
int R;
int G;
int B;
int size = width * height;
//After width*height luminance values we have the Cr values
size_t CrBase = size;
//After width*height luminance values + width*height/4 we have the Cb values
size_t CbBase = size + width*height/4;
jbyte *rgbData = (jbyte*) ((*env)->GetPrimitiveArrayCritical(env, rgbOut, 0));
jbyte* yuv = (jbyte*) (*env)->GetPrimitiveArrayCritical(env, yuv420sp, 0);
for (int i=0; i<size; i++) {
Y = rgbData[i] - 16;
Cr = rgbData[CrBase + ceil(i/4)] - 128;
Cb = rgbData[CbBase + ceil(i/4)] - 128;
R = 1.164*Y+1.596*Cr;
G = 1.164*Y-0.392*Cb-0.813*Cr;
B = 1.164*Y+2.017*Cb;
yuv[i*3] = R;
yuv[i*3+1] = G;
yuv[i*3+2] = B;
}
(*env)->ReleasePrimitiveArrayCritical(env, rgbOut, rgbData, 0);
(*env)->ReleasePrimitiveArrayCritical(env, yuv420sp, yuv, 0);
}
我这样做是因为我还没有找到一个函数可以做到这一点,我需要一个用于 MediaCodec 解码缓冲区的函数。不过就算有,我也想知道有什么可以提高我的功能的,正好学习一下。
更新:
我根据下面的答案修改了代码以使其与 ByteBuffer 一起工作:
JNIEXPORT void JNICALL Java_com_lucaszanella_mediacodecdecoderexample_YuvToRgb_YUVtoRBGA2(JNIEnv * env, jobject obj, jobject yuv420sp, jint width, jint height, jobject rgbOut)
{
//ITU-R BT.601 conversion
//
// R = 1.164*(Y-16)+1.596*(Cr-128)
// G = 1.164*(Y-16)-0.392*(Cb-128)-0.813*(Cr-128)
// B = 1.164*(Y-16)+2.017*(Cb-128)
//
char *rgbData = (char*)(*env)->GetDirectBufferAddress(env, rgbOut);
char *yuv = (char*)(*env)->GetDirectBufferAddress(env, yuv420sp);
const int size = width * height;
//After width*height luminance values we have the Cr values
const size_t CrBase = size;
//After width*height luminance values + width*height/4 we have the Cb values
const size_t CbBase = size + width*height/4;
for (int i=0; i<size; i++) {
int Y = yuv[i] - 16;
int Cr = yuv[CrBase + i/4] - 128;
int Cb = yuv[CbBase + i/4] - 128;
double R = 1.164*Y+1.596*Cr;
double G = 1.164*Y-0.392*Cb-0.813*Cr;
double B = 1.164*Y+2.017*Cb;
rgbData[i*3] = (R > 255) ? 255 : ((R < 0) ? 0 : R);
rgbData[i*3+1] = (G > 255) ? 255 : ((G < 0) ? 0 : G);
rgbData[i*3+2] = (B > 255) ? 255 : ((B < 0) ? 0 : B);
}
}
但是它正在崩溃。我没有看到任何东西被写在边界之外。有人知道吗?
更新:
如果我们使用直接字节缓冲区调用上面的代码,它就可以工作。如果缓冲区不是直接的,将无法工作。
已添加
if (rgbData==NULL) {
__android_log_print(ANDROID_LOG_ERROR, "TRACKERS", "%s", "RGB data null");
}
if (yuv==NULL) {
__android_log_print(ANDROID_LOG_ERROR, "TRACKERS", "%s", "yuv data null");
}
if (rgbData==NULL || yuv==NULL) {
return;
}
为了安全。
总之,颜色不对:
是我吗,但是你不应该从 yuv
数组读取并写入 rgbData
数组吗? 你实际上有它在您的实施中逆转了。
不需要对 i/4
等整数表达式调用 ceil
。当您实施图像处理路线时,在每个像素上调用函数只会降低性能(去过那里,做过)。也许编译器可以优化它,但为什么要冒险。
所以改变这个:
Cr = rgbData[CrBase + ceil(i/4)] - 128;
Cb = rgbData[CbBase + ceil(i/4)] - 128;
为此:
Cr = rgbData[CrBase + i/4] - 128;
Cb = rgbData[CbBase + i/4] - 128;
唯一需要注意的是,您可能希望在分配回之前将 R
、G
和 B
限制在 8 位字节范围内到 yuv
数组。这些数学方程可以产生结果 < 0
和 > 255
.
另一个微优化是在 for 循环块中声明所有变量,以便编译器有更多关于将其作为临时变量进行优化的提示。并将您的一些其他常量声明为 const
我可以建议:
JNIEXPORT void JNICALL Java_com_example_mediacodecdecoderexample_YuvToRgb_YUVtoRBGA2(JNIEnv * env, jobject obj, jbyteArray yuv420sp, jint width, jint height, jbyteArray rgbOut)
{
//ITU-R BT.601 conversion
//
// R = 1.164*(Y-16)+1.596*(Cr-128)
// G = 1.164*(Y-16)-0.392*(Cb-128)-0.813*(Cr-128)
// B = 1.164*(Y-16)+2.017*(Cb-128)
//
const int size = width * height;
//After width*height luminance values we have the Cr values
const size_t CrBase = size;
//After width*height luminance values + width*height/4 we have the Cb values
const size_t CbBase = size + width*height/4;
jbyte *rgbData = (jbyte*) ((*env)->GetPrimitiveArrayCritical(env, rgbOut, 0));
jbyte* yuv= (jbyte*) (*env)->GetPrimitiveArrayCritical(env, yuv420sp, 0);
for (int i=0; i<size; i++) {
int Y = yuv[i] - 16;
int Cr = yuv[CrBase + i/4] - 128;
int Cb = yuv[CbBase + i/4] - 128;
int R = 1.164*Y+1.596*Cr;
int G = 1.164*Y-0.392*Cb-0.813*Cr;
int B = 1.164*Y+2.017*Cb;
rgbData[i*3] = (R > 255) ? 255 : ((R < 0) ? 0 : R);
rgbData[i*3+1] = (G > 255) ? 255 : ((G < 0) ? 0 : G);
rgbData[i*3+2] = (B > 255) ? 255 : ((B < 0) ? 0 : B);
}
(*env)->ReleasePrimitiveArrayCritical(env, rgbOut, rgbData, 0);
(*env)->ReleasePrimitiveArrayCritical(env, yuv420sp, yuv, 0);
}
那么剩下要做的就是使用最大优化进行编译。编译器会处理剩下的事情。
之后,研究 SIMD 优化,一些编译器将其作为编译器开关提供(或通过 pragma 启用)。
对使用 ByteBuffer
的 selbie 答案稍作修改,后者更有用,因为它是 Java 在解码时产生的内容。
JNIEXPORT void JNICALL Java_com_example_mediacodecdecoderexample_YuvToRgb_YUVtoRBGA2(JNIEnv * env, jobject obj, jobject yuv420sp, jint width, jint height, jobject rgbOut)
{
//ITU-R BT.601 conversion
//
// R = 1.164*(Y-16)+1.596*(Cr-128)
// G = 1.164*(Y-16)-0.392*(Cb-128)-0.813*(Cr-128)
// B = 1.164*(Y-16)+2.017*(Cb-128)
//
const int size = width * height;
//After width*height luminance values we have the Cr values
const size_t CrBase = size;
//After width*height luminance values + width*height/4 we have the Cb values
const size_t CbBase = size + width*height/4;
jbyte *rgbData = (*env)->GetDirectBufferAddress(env, rgbOut);
jbyte *yuv = (*env)->GetDirectBufferAddress(env, yuv420sp);
for (int i=0; i<size; i++) {
int Y = yuv[i] - 16;
int Cr = yuv[CrBase + i/4] - 128;
int Cb = yuv[CbBase + i/4] - 128;
int R = 1.164*Y+1.596*Cr;
int G = 1.164*Y-0.392*Cb-0.813*Cr;
int B = 1.164*Y+2.017*Cb;
rgbData[i*3] = (R > 255) ? 255 : ((R < 0) ? 0 : R);
rgbData[i*3+1] = (G > 255) ? 255 : ((G < 0) ? 0 : G);
rgbData[i*3+2] = (B > 255) ? 255 : ((B < 0) ? 0 : B);
}
}
关于:
*I use the ceiling function (shouldn't it return an int? In my case it's returning a double, why?)*
语法如下:
double ceil(double x);
注意返回的类型是 double
不要自己做!不要直接在 C++ 中这样做!唯一正确的方法是为此使用硬件加速。您将节省大量电量。
基本上您可以利用 OpenGL 来实现它,它会代表您使用硬件。
很久很久以前,我为 iOS 做了这个,我确信 Android 的解决方案会非常相似。遗憾的是我(在旧公司)留下了代码,所以我无法为您提供示例代码。如果我发现有用的东西,那么我会更新这个答案。在我的代码中,YUV(以及其他几种颜色格式)直接在 openGL 视图上呈现,而 OpenGL 确实需要转换。
现在我只是指责 OpenGL,因为其他答案直接在 CPU 上执行此操作,这是一个糟糕的选择,因为它会消耗大量电池,而且您永远无法通过这种方式获得所需的性能。
编辑: 我通过一些例子在 SO 上发现了类似的问题:
免责声明:未验证此示例是最佳方法,但这是开始寻找更好解决方案的好方法。
如果出于某种原因您需要在 C++ 代码中执行此操作,则放弃浮点运算以支持对整数类型的运算。