使用 Thrust 进行流压实;最佳实践和最快的方法?
Stream compaction with Thrust; best practices and fastest way?
我有兴趣移植一些现有代码以使用推力,看看我是否可以相对轻松地在 GPU 上加速它。
我想要完成的是流压缩操作,其中只保留非零元素。根据下面的示例代码,我大部分时间都在工作。我不确定如何处理的部分是在压缩发生后处理 d_res 中的所有额外填充 space,因此 h_res。
该示例仅使用 0-99 序列,所有偶数项都设置为零。这只是一个例子,真正的问题将是一个一般的稀疏数组。
How to quickly compact a sparse array with CUDA C?
我怀疑我可以通过计算 d_src 中 0 的数量来解决这个问题,然后只分配 d_res 到那个大小,或者在压缩之后进行计数,并且只复制那么多元素。这真的是正确的做法吗?
我觉得通过巧妙地使用迭代器或 thrust 的其他一些特性,可以很容易地解决这个问题。
#include <thrust/host_vector.h>
#include <thrust/device_vector.h>
#include <thrust/copy.h>
//Predicate functor
struct is_not_zero
__host__ __device__
bool operator()(const int x)
return (x != 0);
using namespace std;
int main(void)
size_t N = 100;
//Host Vector
thrust::host_vector<int> h_src(N);
//Fill with some zero and some nonzero data, as an example
for (int i = 0; i < N; i++){
if (i % 2 == 0){
h_src[i] = 0;
h_src[i] = i;
//Print out source data
cout << "Source:" << endl;
for (int i = 0; i < N; i++){
cout << h_src[i] << " ";
cout << endl;
//copies to device
thrust::device_vector<int> d_src = h_src;
//Result vector
thrust::device_vector<int> d_res(d_src.size());
//Copy non-zero elements from d_src to d_res
thrust::copy_if(d_src.begin(), d_src.end(), d_res.begin(), is_not_zero());
//Copy back to host
thrust::host_vector<int> h_res(d_res.begin(), d_res.end());
//thrust::host_vector<int> h_res = d_res; //Or just this?
//Show results
cout << "h_res size is " << h_res.size() << endl;
cout << "Result after remove:" << endl;
for (int i = 0; i < h_res.size(); i++){
cout << h_res[i] << " ";
cout << endl;
return 0;
您似乎忽略了 copy_if
returns 一个迭代器,它指向从流压缩操作复制的数据的末尾。所以只需要这样:
//copies to device
thrust::device_vector<int> d_src = h_src;
//Result vector
thrust::device_vector<int> d_res(d_src.size());
//Copy non-zero elements from d_src to d_res
auto result_end = thrust::copy_if(d_src.begin(), d_src.end(), d_res.begin(), is_not_zero());
//Copy back to host
thrust::host_vector<int> h_res(d_res.begin(), result_end);
执行此大小 h_res
我有兴趣移植一些现有代码以使用推力,看看我是否可以相对轻松地在 GPU 上加速它。
我想要完成的是流压缩操作,其中只保留非零元素。根据下面的示例代码,我大部分时间都在工作。我不确定如何处理的部分是在压缩发生后处理 d_res 中的所有额外填充 space,因此 h_res。
该示例仅使用 0-99 序列,所有偶数项都设置为零。这只是一个例子,真正的问题将是一个一般的稀疏数组。
这里的答案对我帮助很大,尽管在读取数据时,大小已知是恒定的: How to quickly compact a sparse array with CUDA C?
我怀疑我可以通过计算 d_src 中 0 的数量来解决这个问题,然后只分配 d_res 到那个大小,或者在压缩之后进行计数,并且只复制那么多元素。这真的是正确的做法吗?
我觉得通过巧妙地使用迭代器或 thrust 的其他一些特性,可以很容易地解决这个问题。
#include <thrust/host_vector.h>
#include <thrust/device_vector.h>
#include <thrust/copy.h>
//Predicate functor
struct is_not_zero
__host__ __device__
bool operator()(const int x)
return (x != 0);
using namespace std;
int main(void)
size_t N = 100;
//Host Vector
thrust::host_vector<int> h_src(N);
//Fill with some zero and some nonzero data, as an example
for (int i = 0; i < N; i++){
if (i % 2 == 0){
h_src[i] = 0;
h_src[i] = i;
//Print out source data
cout << "Source:" << endl;
for (int i = 0; i < N; i++){
cout << h_src[i] << " ";
cout << endl;
//copies to device
thrust::device_vector<int> d_src = h_src;
//Result vector
thrust::device_vector<int> d_res(d_src.size());
//Copy non-zero elements from d_src to d_res
thrust::copy_if(d_src.begin(), d_src.end(), d_res.begin(), is_not_zero());
//Copy back to host
thrust::host_vector<int> h_res(d_res.begin(), d_res.end());
//thrust::host_vector<int> h_res = d_res; //Or just this?
//Show results
cout << "h_res size is " << h_res.size() << endl;
cout << "Result after remove:" << endl;
for (int i = 0; i < h_res.size(); i++){
cout << h_res[i] << " ";
cout << endl;
return 0;
您似乎忽略了 copy_if
returns 一个迭代器,它指向从流压缩操作复制的数据的末尾。所以只需要这样:
//copies to device
thrust::device_vector<int> d_src = h_src;
//Result vector
thrust::device_vector<int> d_res(d_src.size());
//Copy non-zero elements from d_src to d_res
auto result_end = thrust::copy_if(d_src.begin(), d_src.end(), d_res.begin(), is_not_zero());
//Copy back to host
thrust::host_vector<int> h_res(d_res.begin(), result_end);
执行此大小 h_res