cudaMemcpy 中的无效参数
Invalid Argument in cudaMemcpy
我无法追踪 cudaMemcpy 调用的无效参数的来源,这是相关代码:
在gpu_memory.cu中我为设备指针声明和分配内存:
#define cudaErrorCheck(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, const char *file, int line, bool abort=true)
{
if (code != cudaSuccess)
{
fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
if (abort) exit(code);
}
}
...
__device__ double* conc;
...
__global__ void pointer_set_kernel(..., double* conc_in...) {
...
conc = conc_in;
...
}
double* d_conc;
...
//memory initialization
void initialize_gpu_memory(int NUM, int block_size, int grid_size) {
...
cudaErrorCheck(cudaMalloc((void**)&d_conc, NUM * 53 * sizeof(double)));
...
pointer_set_kernel<<<1, 1>>>(...d_conc...);
cudaErrorCheck( cudaPeekAtLastError() ); // Checks for launch error
cudaErrorCheck( cudaThreadSynchronize() ); // Checks for execution error
}
接下来在另一个文件 (mechanism.cu) 中,我将设备指针声明为 extern 以将数据复制到它:
extern __device__ double* conc;
void write_jacobian_and_rates_output(int NUM, int block_size, int grid_size) {
...
initialize_gpu_memory(NUM, block_size, grid_size);
...
//get address of conc
double* d_conc;
cudaErrorCheck(cudaGetSymbolAddress((void **)&d_conc, conc));
//populate the concentrations on the host
double conc_host[NSP];
double* conc_host_full = (double*)malloc(NUM * NSP * sizeof(double));
//populate the concentrations
get_concentrations(1.01325e6, y_host, conc_host);
for (int i = 0; i < NUM; ++i) {
for (int j = 0; j < NSP; ++j) {
conc_host_full[i + j * NUM] = conc_host[j];
}
}
//check for errors, and copy over
cudaErrorCheck( cudaPeekAtLastError() ); // Checks for launch error
cudaErrorCheck( cudaThreadSynchronize() ); // Checks for execution error
cudaErrorCheck(cudaMemcpy(d_conc, conc_host_full, NUM * 53 * sizeof(double), cudaMemcpyHostToDevice));
...
}
我在最后一行(Memcpy)收到错误。 initialize_gpu_memory 函数似乎正常工作,这是 malloc 和 pointer_set_kernel:
之后的 cuda-gdb 检查
p d_conc
= (double *) 0x1b03236000
p conc
= (@generic double * @global) 0x1b03236000
并在 write_jacobian_and_rates 函数中:
p d_conc
= (double *) 0x1b02e20600
p conc
= (@generic double * @global) 0x1b03236000
我不知道为什么写入函数中的 d_conc 在 cudaGetSymbolAddress 调用之后指向不同的内存位置,或者为什么我在 memcpy 上得到一个无效参数。我确定我在做一些愚蠢的事情,但对于我的生活我看不到它。如果能帮助追查此问题的来源,将不胜感激!
您的代码片段中没有任何内容表明您具有 d_conc
的 extern
范围,因此,两个不同文件中的 d_conc
的两个实例是完全不同的对象。所以,
在此上下文中:( mechanism.cu
)
double* d_conc; //you create a new variable in this context
cudaErrorCheck(cudaGetSymbolAddress((void **)&d_conc, conc));
//populate the concentrations on the host
double conc_host[NSP];
double* conc_host_full = (double*)malloc(NUM * NSP * sizeof(double));
没有分配内存到d_conc
我看到你在 gpu_memory.cu
的上下文中分配了内存,因为它是同名变量,但不是在这里,错误发生的地方。
这似乎也可以解决您的问题:我不知道为什么 d_conc 在写入函数中指向 cudaGetSymbolAddress 调用后的不同内存位置
我无法追踪 cudaMemcpy 调用的无效参数的来源,这是相关代码:
在gpu_memory.cu中我为设备指针声明和分配内存:
#define cudaErrorCheck(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, const char *file, int line, bool abort=true)
{
if (code != cudaSuccess)
{
fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
if (abort) exit(code);
}
}
...
__device__ double* conc;
...
__global__ void pointer_set_kernel(..., double* conc_in...) {
...
conc = conc_in;
...
}
double* d_conc;
...
//memory initialization
void initialize_gpu_memory(int NUM, int block_size, int grid_size) {
...
cudaErrorCheck(cudaMalloc((void**)&d_conc, NUM * 53 * sizeof(double)));
...
pointer_set_kernel<<<1, 1>>>(...d_conc...);
cudaErrorCheck( cudaPeekAtLastError() ); // Checks for launch error
cudaErrorCheck( cudaThreadSynchronize() ); // Checks for execution error
}
接下来在另一个文件 (mechanism.cu) 中,我将设备指针声明为 extern 以将数据复制到它:
extern __device__ double* conc;
void write_jacobian_and_rates_output(int NUM, int block_size, int grid_size) {
...
initialize_gpu_memory(NUM, block_size, grid_size);
...
//get address of conc
double* d_conc;
cudaErrorCheck(cudaGetSymbolAddress((void **)&d_conc, conc));
//populate the concentrations on the host
double conc_host[NSP];
double* conc_host_full = (double*)malloc(NUM * NSP * sizeof(double));
//populate the concentrations
get_concentrations(1.01325e6, y_host, conc_host);
for (int i = 0; i < NUM; ++i) {
for (int j = 0; j < NSP; ++j) {
conc_host_full[i + j * NUM] = conc_host[j];
}
}
//check for errors, and copy over
cudaErrorCheck( cudaPeekAtLastError() ); // Checks for launch error
cudaErrorCheck( cudaThreadSynchronize() ); // Checks for execution error
cudaErrorCheck(cudaMemcpy(d_conc, conc_host_full, NUM * 53 * sizeof(double), cudaMemcpyHostToDevice));
...
}
我在最后一行(Memcpy)收到错误。 initialize_gpu_memory 函数似乎正常工作,这是 malloc 和 pointer_set_kernel:
之后的 cuda-gdb 检查p d_conc
= (double *) 0x1b03236000
p conc
= (@generic double * @global) 0x1b03236000
并在 write_jacobian_and_rates 函数中:
p d_conc
= (double *) 0x1b02e20600
p conc
= (@generic double * @global) 0x1b03236000
我不知道为什么写入函数中的 d_conc 在 cudaGetSymbolAddress 调用之后指向不同的内存位置,或者为什么我在 memcpy 上得到一个无效参数。我确定我在做一些愚蠢的事情,但对于我的生活我看不到它。如果能帮助追查此问题的来源,将不胜感激!
您的代码片段中没有任何内容表明您具有 d_conc
的 extern
范围,因此,两个不同文件中的 d_conc
的两个实例是完全不同的对象。所以,
在此上下文中:( mechanism.cu
)
double* d_conc; //you create a new variable in this context
cudaErrorCheck(cudaGetSymbolAddress((void **)&d_conc, conc));
//populate the concentrations on the host
double conc_host[NSP];
double* conc_host_full = (double*)malloc(NUM * NSP * sizeof(double));
没有分配内存到d_conc
我看到你在 gpu_memory.cu
的上下文中分配了内存,因为它是同名变量,但不是在这里,错误发生的地方。
这似乎也可以解决您的问题:我不知道为什么 d_conc 在写入函数中指向 cudaGetSymbolAddress 调用后的不同内存位置