如何将具有不同比例的视频卷(密集采样后)转换为描述符?
How to convert video volumes (after dense sampling) with different scales to descriptor?
我阅读了这篇文章 (link) 并尝试理解那里介绍的算法。
所以,现在我几乎理解了这篇文章的所有要点,但有疑问:
如何将不同尺度的视频体积(密集采样后)转换为描述符?
据我所知,如果我有 100 帧 120*160 的视频,然后我应用不同比例的密集比例(例如 [5*5*5, 10*10*10, 20*20*20]
),然后我将分别得到 [15360, 1920, 240]
立方体.但是,之后我需要为它们中的每一个制作描述符,并且描述符的长度必须相同(在本文中描述符的长度与立方体的大小相同,所以[125, 1000, 8000]
)。
我认为其中一个解决方案是为不同比例的每个像素立方体创建,然后将它们连接成一个长度为 9125 的向量。对吗?
所以,我找到了答案。
在每个像素周围,我必须构建每个尺寸的立方体(因此,每个尺寸大约有 1920000 个立方体)
我阅读了这篇文章 (link) 并尝试理解那里介绍的算法。
所以,现在我几乎理解了这篇文章的所有要点,但有疑问:
如何将不同尺度的视频体积(密集采样后)转换为描述符?
据我所知,如果我有 100 帧 120*160 的视频,然后我应用不同比例的密集比例(例如 [5*5*5, 10*10*10, 20*20*20]
),然后我将分别得到 [15360, 1920, 240]
立方体.但是,之后我需要为它们中的每一个制作描述符,并且描述符的长度必须相同(在本文中描述符的长度与立方体的大小相同,所以[125, 1000, 8000]
)。
我认为其中一个解决方案是为不同比例的每个像素立方体创建,然后将它们连接成一个长度为 9125 的向量。对吗?
所以,我找到了答案。
在每个像素周围,我必须构建每个尺寸的立方体(因此,每个尺寸大约有 1920000 个立方体)