如何在 simple-openni 中获得清晰的用户掩码?
How to get clear mask of users in simple-openni?
我正在尝试提取用户剪影并将其放在我的图像上方。我能够制作一个蒙版并从 rgb 图像中剪切用户。但是轮廓很乱
问题是我怎样才能使蒙版更精确(以适合真实用户)。我试过 ERODE-DILATE 过滤器,但作用不大。也许我需要像 Photoshop 中那样的一些羽化滤镜。或者我不知道。
这是我的代码。
import SimpleOpenNI.*;
SimpleOpenNI context;
PImage mask;
void setup()
{
size(640*2, 480);
context = new SimpleOpenNI(this);
if (context.isInit() == false)
{
exit();
return;
}
context.enableDepth();
context.enableRGB();
context.enableUser();
context.alternativeViewPointDepthToImage();
}
void draw()
{
frame.setTitle(int(frameRate) + " fps");
context.update();
int[] userMap = context.userMap();
background(0, 0, 0);
mask = loadImage("black640.jpg"); //just a black image
int xSize = context.depthWidth();
int ySize = context.depthHeight();
mask.loadPixels();
for (int y = 0; y < ySize; y++) {
for (int x = 0; x < xSize; x++) {
int index = x + y*xSize;
if (userMap[index]>0) {
mask.pixels[index]=color(255, 255, 255);
}
}
}
mask.updatePixels();
image(mask, 0, 0);
mask.filter(DILATE);
mask.filter(DILATE);
PImage rgb = context.rgbImage();
rgb.mask(mask);
image(rgb, context.depthWidth() + 10, 0);
}
很高兴您对齐了 RGB 和深度流。
在效率方面可以改进的地方很少:
无需每帧(在 draw() 循环中)重新加载黑色图像,因为无论如何您都在修改所有像素:
mask = loadImage("black640.jpg"); //just a black image
此外,由于在遍历用户数据时不需要 x,y 坐标,因此您可以使用单个 for 循环,这应该会更快一些:
for(int i = 0 ; i < numPixels ; i++){
mask.pixels[i] = userMap[i] > 0 ? color(255) : color(0);
}
而不是:
for (int y = 0; y < ySize; y++) {
for (int x = 0; x < xSize; x++) {
int index = x + y*xSize;
if (userMap[index]>0) {
mask.pixels[index]=color(255, 255, 255);
}
}
}
你可以做的另一件骇人听闻的事情是从 SimpleOpenNI 中检索 userImage()
,而不是 userData()
并对其应用 THRESHOLD
过滤器,理论上应该给你相同的结果结果如上
例如:
int[] userMap = context.userMap();
background(0, 0, 0);
mask = loadImage("black640.jpg"); //just a black image
int xSize = context.depthWidth();
int ySize = context.depthHeight();
mask.loadPixels();
for (int y = 0; y < ySize; y++) {
for (int x = 0; x < xSize; x++) {
int index = x + y*xSize;
if (userMap[index]>0) {
mask.pixels[index]=color(255, 255, 255);
}
}
}
可能是:
mask = context.userImage();
mask.filter(THRESHOLD);
在过滤方面,如果你想缩小轮廓,你应该 ERODE
并且模糊应该给你一点像羽化的 Photoshop。
请注意,有些 filter() 调用带有参数(如 BLUR
),但其他调用不喜欢 ERODE
/DILATE
形态过滤器,但您仍然可以滚动你自己的循环来处理这个问题。
我还建议在使用过滤器时使用某种易于调整的界面(可以是花哨的滑块或简单的键盘快捷键)。
这是对带有上述注释的重构草图的粗略尝试:
import SimpleOpenNI.*;
SimpleOpenNI context;
PImage mask;
int numPixels = 640*480;
int dilateAmt = 1;
int erodeAmt = 1;
int blurAmt = 0;
void setup()
{
size(640*2, 480);
context = new SimpleOpenNI(this);
if (context.isInit() == false)
{
exit();
return;
}
context.enableDepth();
context.enableRGB();
context.enableUser();
context.alternativeViewPointDepthToImage();
mask = createImage(640,480,RGB);
}
void draw()
{
frame.setTitle(int(frameRate) + " fps");
context.update();
int[] userMap = context.userMap();
background(0, 0, 0);
//you don't need to keep reloading the image every single frame since you're updating all the pixels bellow anyway
// mask = loadImage("black640.jpg"); //just a black image
// mask.loadPixels();
// int xSize = context.depthWidth();
// int ySize = context.depthHeight();
// for (int y = 0; y < ySize; y++) {
// for (int x = 0; x < xSize; x++) {
// int index = x + y*xSize;
// if (userMap[index]>0) {
// mask.pixels[index]=color(255, 255, 255);
// }
// }
// }
//a single loop is usually faster than a nested loop and you don't need the x,y coordinates anyway
for(int i = 0 ; i < numPixels ; i++){
mask.pixels[i] = userMap[i] > 0 ? color(255) : color(0);
}
//erode
for(int i = 0 ; i < erodeAmt ; i++) mask.filter(ERODE);
//dilate
for(int i = 0 ; i < dilateAmt; i++) mask.filter(DILATE);
//blur
mask.filter(BLUR,blurAmt);
mask.updatePixels();
//preview the mask after you process it
image(mask, 0, 0);
PImage rgb = context.rgbImage();
rgb.mask(mask);
image(rgb, context.depthWidth() + 10, 0);
//print filter values for debugging purposes
fill(255);
text("erodeAmt: " + erodeAmt + "\tdilateAmt: " + dilateAmt + "\tblurAmt: " + blurAmt,15,15);
}
void keyPressed(){
if(key == 'e') erodeAmt--;
if(key == 'E') erodeAmt++;
if(key == 'd') dilateAmt--;
if(key == 'D') dilateAmt++;
if(key == 'b') blurAmt--;
if(key == 'B') blurAmt++;
//constrain values
if(erodeAmt < 0) erodeAmt = 0;
if(dilateAmt < 0) dilateAmt = 0;
if(blurAmt < 0) blurAmt = 0;
}
很遗憾,我现在无法使用实际传感器进行测试,因此请使用解释的概念,但请记住,完整的草图代码未经过测试。
上面的草图(如果它 运行s)应该允许您使用键来控制过滤器参数(e/E 到 decrease/increase 腐蚀,d/D 用于膨胀, b/B 用于模糊)。希望你能得到满意的结果。
一般来说,在使用 SimpleOpenNI 时,我建议为最常见的用例录制一个人的 .oni 文件(查看 RecorderPlay 示例)。这将在测试时为您节省一些时间 运行,并允许您在传感器分离的情况下进行远程工作。需要记住的一件事是,深度分辨率在录制时减少了一半(但使用 usingRecording
布尔标志应该可以保证安全)
最后一点也是最重要的一点是关于最终结果的质量。如果源图像一开始就不容易处理,那么生成的图像也不会好多少。来自原始 Kinect 传感器的深度数据不是很好。华硕传感器感觉更稳定一点,但在大多数情况下差异仍然可以忽略不计。如果您要坚持使用这些传感器之一,请确保您有清晰的背景和合适的照明(没有太多直接的暖光(阳光、白炽灯泡等),因为它们可能会干扰传感器)
如果您想要更准确的用户剪辑,而上述过滤没有得到您想要的结果,请考虑切换到更好的传感器,如 KinectV2。深度质量要好得多,并且传感器不易受到直射暖光的影响。这可能意味着您需要使用 Windows(我看到有一个 KinectPV2 wrapper available) or OpenFrameworks(c++ collections of libraries similar to Processing) with ofxKinectV2
我在处理中尝试了内置的腐蚀扩张模糊。但它们效率很低。每次我在 img.filter(BLUR,blurAmount) 中增加 blurAmount 时,我的 FPS 都会减少 5 帧。
所以我决定试试opencv。相比之下就好多了。结果还算满意。
import SimpleOpenNI.*;
import processing.video.*;
import gab.opencv.*;
SimpleOpenNI context;
OpenCV opencv;
PImage mask;
int numPixels = 640*480;
int dilateAmt = 1;
int erodeAmt = 1;
int blurAmt = 1;
Movie mov;
void setup(){
opencv = new OpenCV(this, 640, 480);
size(640*2, 480);
context = new SimpleOpenNI(this);
if (context.isInit() == false) {
exit();
return;
}
context.enableDepth();
context.enableRGB();
context.enableUser();
context.alternativeViewPointDepthToImage();
mask = createImage(640, 480, RGB);
mov = new Movie(this, "wild.mp4");
mov.play();
mov.speed(5);
mov.volume(0);
}
void movieEvent(Movie m) {
m.read();
}
void draw() {
frame.setTitle(int(frameRate) + " fps");
context.update();
int[] userMap = context.userMap();
background(0, 0, 0);
mask.loadPixels();
for (int i = 0; i < numPixels; i++) {
mask.pixels[i] = userMap[i] > 0 ? color(255) : color(0);
}
mask.updatePixels();
opencv.loadImage(mask);
opencv.gray();
for (int i = 0; i < erodeAmt; i++) {
opencv.erode();
}
for (int i = 0; i < dilateAmt; i++) {
opencv.dilate();
}
if (blurAmt>0) {//blur with 0 amount causes error
opencv.blur(blurAmt);
}
mask = opencv.getSnapshot();
image(mask, 0, 0);
PImage rgb = context.rgbImage();
rgb.mask(mask);
image(mov, context.depthWidth() + 10, 0);
image(rgb, context.depthWidth() + 10, 0);
fill(255);
text("erodeAmt: " + erodeAmt + "\tdilateAmt: " + dilateAmt + "\tblurAmt: " + blurAmt, 15, 15);
}
void keyPressed() {
if (key == 'e') erodeAmt--;
if (key == 'E') erodeAmt++;
if (key == 'd') dilateAmt--;
if (key == 'D') dilateAmt++;
if (key == 'b') blurAmt--;
if (key == 'B') blurAmt++;
//constrain values
if (erodeAmt < 0) erodeAmt = 0;
if (dilateAmt < 0) dilateAmt = 0;
if (blurAmt < 0) blurAmt = 0;
}
我正在尝试提取用户剪影并将其放在我的图像上方。我能够制作一个蒙版并从 rgb 图像中剪切用户。但是轮廓很乱
问题是我怎样才能使蒙版更精确(以适合真实用户)。我试过 ERODE-DILATE 过滤器,但作用不大。也许我需要像 Photoshop 中那样的一些羽化滤镜。或者我不知道。
这是我的代码。
import SimpleOpenNI.*;
SimpleOpenNI context;
PImage mask;
void setup()
{
size(640*2, 480);
context = new SimpleOpenNI(this);
if (context.isInit() == false)
{
exit();
return;
}
context.enableDepth();
context.enableRGB();
context.enableUser();
context.alternativeViewPointDepthToImage();
}
void draw()
{
frame.setTitle(int(frameRate) + " fps");
context.update();
int[] userMap = context.userMap();
background(0, 0, 0);
mask = loadImage("black640.jpg"); //just a black image
int xSize = context.depthWidth();
int ySize = context.depthHeight();
mask.loadPixels();
for (int y = 0; y < ySize; y++) {
for (int x = 0; x < xSize; x++) {
int index = x + y*xSize;
if (userMap[index]>0) {
mask.pixels[index]=color(255, 255, 255);
}
}
}
mask.updatePixels();
image(mask, 0, 0);
mask.filter(DILATE);
mask.filter(DILATE);
PImage rgb = context.rgbImage();
rgb.mask(mask);
image(rgb, context.depthWidth() + 10, 0);
}
很高兴您对齐了 RGB 和深度流。 在效率方面可以改进的地方很少:
无需每帧(在 draw() 循环中)重新加载黑色图像,因为无论如何您都在修改所有像素:
mask = loadImage("black640.jpg"); //just a black image
此外,由于在遍历用户数据时不需要 x,y 坐标,因此您可以使用单个 for 循环,这应该会更快一些:
for(int i = 0 ; i < numPixels ; i++){
mask.pixels[i] = userMap[i] > 0 ? color(255) : color(0);
}
而不是:
for (int y = 0; y < ySize; y++) {
for (int x = 0; x < xSize; x++) {
int index = x + y*xSize;
if (userMap[index]>0) {
mask.pixels[index]=color(255, 255, 255);
}
}
}
你可以做的另一件骇人听闻的事情是从 SimpleOpenNI 中检索 userImage()
,而不是 userData()
并对其应用 THRESHOLD
过滤器,理论上应该给你相同的结果结果如上
例如:
int[] userMap = context.userMap();
background(0, 0, 0);
mask = loadImage("black640.jpg"); //just a black image
int xSize = context.depthWidth();
int ySize = context.depthHeight();
mask.loadPixels();
for (int y = 0; y < ySize; y++) {
for (int x = 0; x < xSize; x++) {
int index = x + y*xSize;
if (userMap[index]>0) {
mask.pixels[index]=color(255, 255, 255);
}
}
}
可能是:
mask = context.userImage();
mask.filter(THRESHOLD);
在过滤方面,如果你想缩小轮廓,你应该 ERODE
并且模糊应该给你一点像羽化的 Photoshop。
请注意,有些 filter() 调用带有参数(如 BLUR
),但其他调用不喜欢 ERODE
/DILATE
形态过滤器,但您仍然可以滚动你自己的循环来处理这个问题。
我还建议在使用过滤器时使用某种易于调整的界面(可以是花哨的滑块或简单的键盘快捷键)。
这是对带有上述注释的重构草图的粗略尝试:
import SimpleOpenNI.*;
SimpleOpenNI context;
PImage mask;
int numPixels = 640*480;
int dilateAmt = 1;
int erodeAmt = 1;
int blurAmt = 0;
void setup()
{
size(640*2, 480);
context = new SimpleOpenNI(this);
if (context.isInit() == false)
{
exit();
return;
}
context.enableDepth();
context.enableRGB();
context.enableUser();
context.alternativeViewPointDepthToImage();
mask = createImage(640,480,RGB);
}
void draw()
{
frame.setTitle(int(frameRate) + " fps");
context.update();
int[] userMap = context.userMap();
background(0, 0, 0);
//you don't need to keep reloading the image every single frame since you're updating all the pixels bellow anyway
// mask = loadImage("black640.jpg"); //just a black image
// mask.loadPixels();
// int xSize = context.depthWidth();
// int ySize = context.depthHeight();
// for (int y = 0; y < ySize; y++) {
// for (int x = 0; x < xSize; x++) {
// int index = x + y*xSize;
// if (userMap[index]>0) {
// mask.pixels[index]=color(255, 255, 255);
// }
// }
// }
//a single loop is usually faster than a nested loop and you don't need the x,y coordinates anyway
for(int i = 0 ; i < numPixels ; i++){
mask.pixels[i] = userMap[i] > 0 ? color(255) : color(0);
}
//erode
for(int i = 0 ; i < erodeAmt ; i++) mask.filter(ERODE);
//dilate
for(int i = 0 ; i < dilateAmt; i++) mask.filter(DILATE);
//blur
mask.filter(BLUR,blurAmt);
mask.updatePixels();
//preview the mask after you process it
image(mask, 0, 0);
PImage rgb = context.rgbImage();
rgb.mask(mask);
image(rgb, context.depthWidth() + 10, 0);
//print filter values for debugging purposes
fill(255);
text("erodeAmt: " + erodeAmt + "\tdilateAmt: " + dilateAmt + "\tblurAmt: " + blurAmt,15,15);
}
void keyPressed(){
if(key == 'e') erodeAmt--;
if(key == 'E') erodeAmt++;
if(key == 'd') dilateAmt--;
if(key == 'D') dilateAmt++;
if(key == 'b') blurAmt--;
if(key == 'B') blurAmt++;
//constrain values
if(erodeAmt < 0) erodeAmt = 0;
if(dilateAmt < 0) dilateAmt = 0;
if(blurAmt < 0) blurAmt = 0;
}
很遗憾,我现在无法使用实际传感器进行测试,因此请使用解释的概念,但请记住,完整的草图代码未经过测试。
上面的草图(如果它 运行s)应该允许您使用键来控制过滤器参数(e/E 到 decrease/increase 腐蚀,d/D 用于膨胀, b/B 用于模糊)。希望你能得到满意的结果。
一般来说,在使用 SimpleOpenNI 时,我建议为最常见的用例录制一个人的 .oni 文件(查看 RecorderPlay 示例)。这将在测试时为您节省一些时间 运行,并允许您在传感器分离的情况下进行远程工作。需要记住的一件事是,深度分辨率在录制时减少了一半(但使用 usingRecording
布尔标志应该可以保证安全)
最后一点也是最重要的一点是关于最终结果的质量。如果源图像一开始就不容易处理,那么生成的图像也不会好多少。来自原始 Kinect 传感器的深度数据不是很好。华硕传感器感觉更稳定一点,但在大多数情况下差异仍然可以忽略不计。如果您要坚持使用这些传感器之一,请确保您有清晰的背景和合适的照明(没有太多直接的暖光(阳光、白炽灯泡等),因为它们可能会干扰传感器)
如果您想要更准确的用户剪辑,而上述过滤没有得到您想要的结果,请考虑切换到更好的传感器,如 KinectV2。深度质量要好得多,并且传感器不易受到直射暖光的影响。这可能意味着您需要使用 Windows(我看到有一个 KinectPV2 wrapper available) or OpenFrameworks(c++ collections of libraries similar to Processing) with ofxKinectV2
我在处理中尝试了内置的腐蚀扩张模糊。但它们效率很低。每次我在 img.filter(BLUR,blurAmount) 中增加 blurAmount 时,我的 FPS 都会减少 5 帧。 所以我决定试试opencv。相比之下就好多了。结果还算满意。
import SimpleOpenNI.*;
import processing.video.*;
import gab.opencv.*;
SimpleOpenNI context;
OpenCV opencv;
PImage mask;
int numPixels = 640*480;
int dilateAmt = 1;
int erodeAmt = 1;
int blurAmt = 1;
Movie mov;
void setup(){
opencv = new OpenCV(this, 640, 480);
size(640*2, 480);
context = new SimpleOpenNI(this);
if (context.isInit() == false) {
exit();
return;
}
context.enableDepth();
context.enableRGB();
context.enableUser();
context.alternativeViewPointDepthToImage();
mask = createImage(640, 480, RGB);
mov = new Movie(this, "wild.mp4");
mov.play();
mov.speed(5);
mov.volume(0);
}
void movieEvent(Movie m) {
m.read();
}
void draw() {
frame.setTitle(int(frameRate) + " fps");
context.update();
int[] userMap = context.userMap();
background(0, 0, 0);
mask.loadPixels();
for (int i = 0; i < numPixels; i++) {
mask.pixels[i] = userMap[i] > 0 ? color(255) : color(0);
}
mask.updatePixels();
opencv.loadImage(mask);
opencv.gray();
for (int i = 0; i < erodeAmt; i++) {
opencv.erode();
}
for (int i = 0; i < dilateAmt; i++) {
opencv.dilate();
}
if (blurAmt>0) {//blur with 0 amount causes error
opencv.blur(blurAmt);
}
mask = opencv.getSnapshot();
image(mask, 0, 0);
PImage rgb = context.rgbImage();
rgb.mask(mask);
image(mov, context.depthWidth() + 10, 0);
image(rgb, context.depthWidth() + 10, 0);
fill(255);
text("erodeAmt: " + erodeAmt + "\tdilateAmt: " + dilateAmt + "\tblurAmt: " + blurAmt, 15, 15);
}
void keyPressed() {
if (key == 'e') erodeAmt--;
if (key == 'E') erodeAmt++;
if (key == 'd') dilateAmt--;
if (key == 'D') dilateAmt++;
if (key == 'b') blurAmt--;
if (key == 'B') blurAmt++;
//constrain values
if (erodeAmt < 0) erodeAmt = 0;
if (dilateAmt < 0) dilateAmt = 0;
if (blurAmt < 0) blurAmt = 0;
}