如何为全卷积网络格式化数据集?
How to format a data set for fully convolutional networks?
我正在尝试为完全卷积网络准备我的数据集。我查看了一些数据集,但我真的很难弄清楚如何格式化它。例如,在 Kitti 数据集中,training 文件夹中有这 2 张图像和此文本文件:
图片 1
图片2
文本
P0: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 0.000000000000e+00 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00
P1: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.875744000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00
P2: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 4.485728000000e+01 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.163791000000e-01 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.745884000000e-03
P3: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.395242000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.199936000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.729905000000e-03
R0_rect: 9.999239000000e-01 9.837760000000e-03 -7.445048000000e-03 -9.869795000000e-03 9.999421000000e-01 -4.278459000000e-03 7.402527000000e-03 4.351614000000e-03 9.999631000000e-01
Tr_velo_to_cam: 7.533745000000e-03 -9.999714000000e-01 -6.166020000000e-04 -4.069766000000e-03 1.480249000000e-02 7.280733000000e-04 -9.998902000000e-01 -7.631618000000e-02 9.998621000000e-01 7.523790000000e-03 1.480755000000e-02 -2.717806000000e-01
Tr_imu_to_velo: 9.999976000000e-01 7.553071000000e-04 -2.035826000000e-03 -8.086759000000e-01 -7.854027000000e-04 9.998898000000e-01 -1.482298000000e-02 3.195559000000e-01 2.024406000000e-03 1.482454000000e-02 9.998881000000e-01 -7.997231000000e-01
Tr_cam_to_road: 9.999570839814e-01 -5.508724949246e-03 -7.452906591504e-03 9.610489538319e-03 5.425697507328e-03 9.999234779341e-01 -1.111504746388e-02 -1.597134401910e+00 7.513565886504e-03 1.107413060494e-02 9.999104059534e-01 2.788606298060e-01
这个数据集与我见过的用于 CNN 的常规数据集非常不同。因此,我有以下问题:
- 文本文件中发生了什么?
- 如何生成具有纯色像素的第二张图片?
- 提出的 FCN 的优点之一是能够提供任意大小的输入图像。我可以将输入图像制作多小 - 50x50 是不是太小了?我找了一些与此相关的文献,但找不到太多。
本质上,我正在尝试创建一个数据集来使用这个 network from this github。其中只有 2 个用于训练的文件夹:training_img_lmdb
和 training_label_lmdb
。因此,我不确定文本文件或像素化图像是否位于标签文件夹中。任何帮助将不胜感激!!
看起来像是某种遥测,来自 Tr_cam_to_road、Tr_velo_to_cam 等...通常数据集会有文档
请说明。你张贴了图片。确定你知道如何加载图像?
你是对的,但是任何纯卷积网络的最小输入大小都等于单个输出像素的输入邻域大小。
我正在尝试为完全卷积网络准备我的数据集。我查看了一些数据集,但我真的很难弄清楚如何格式化它。例如,在 Kitti 数据集中,training 文件夹中有这 2 张图像和此文本文件:
图片 1
图片2
文本
P0: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 0.000000000000e+00 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00 P1: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.875744000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00 P2: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 4.485728000000e+01 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.163791000000e-01 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.745884000000e-03 P3: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.395242000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.199936000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.729905000000e-03 R0_rect: 9.999239000000e-01 9.837760000000e-03 -7.445048000000e-03 -9.869795000000e-03 9.999421000000e-01 -4.278459000000e-03 7.402527000000e-03 4.351614000000e-03 9.999631000000e-01 Tr_velo_to_cam: 7.533745000000e-03 -9.999714000000e-01 -6.166020000000e-04 -4.069766000000e-03 1.480249000000e-02 7.280733000000e-04 -9.998902000000e-01 -7.631618000000e-02 9.998621000000e-01 7.523790000000e-03 1.480755000000e-02 -2.717806000000e-01 Tr_imu_to_velo: 9.999976000000e-01 7.553071000000e-04 -2.035826000000e-03 -8.086759000000e-01 -7.854027000000e-04 9.998898000000e-01 -1.482298000000e-02 3.195559000000e-01 2.024406000000e-03 1.482454000000e-02 9.998881000000e-01 -7.997231000000e-01 Tr_cam_to_road: 9.999570839814e-01 -5.508724949246e-03 -7.452906591504e-03 9.610489538319e-03 5.425697507328e-03 9.999234779341e-01 -1.111504746388e-02 -1.597134401910e+00 7.513565886504e-03 1.107413060494e-02 9.999104059534e-01 2.788606298060e-01
这个数据集与我见过的用于 CNN 的常规数据集非常不同。因此,我有以下问题:
- 文本文件中发生了什么?
- 如何生成具有纯色像素的第二张图片?
- 提出的 FCN 的优点之一是能够提供任意大小的输入图像。我可以将输入图像制作多小 - 50x50 是不是太小了?我找了一些与此相关的文献,但找不到太多。
本质上,我正在尝试创建一个数据集来使用这个 network from this github。其中只有 2 个用于训练的文件夹:training_img_lmdb
和 training_label_lmdb
。因此,我不确定文本文件或像素化图像是否位于标签文件夹中。任何帮助将不胜感激!!
看起来像是某种遥测,来自 Tr_cam_to_road、Tr_velo_to_cam 等...通常数据集会有文档
请说明。你张贴了图片。确定你知道如何加载图像?
你是对的,但是任何纯卷积网络的最小输入大小都等于单个输出像素的输入邻域大小。