使用非阻塞 MPI 函数发送矩阵的问题

Question

以下代码使用双指针 malloc 方法创建一个矩阵 [m][n] 并使用非阻塞 MPI 将相同数量的矩阵块发送到每个 n-1 处理器职能。处理器 P=0 负责生成矩阵并发送它们，以便 P != 0 处理器中的每个处理器都将接收一组行并进行处理。

即使我花了几天时间来确保每一行都是正确的，但我还是不知道这些错误是从哪里来的:(我很感激你的帮助。

#include <stdio.h> 
#include <string.h> 
#include <time.h>
#include "mpi.h"

int main (int argc, char* argv[]) {

    const int RANK_0 = 0; // Rank 0
    const int ROWS = 24; // Row size
    const int COLS = 12; // Column size
    const int TAG_0 = 0; // Message ID 
    const int TAG_0 = 0; // Message ID 
    int rank; // The process ID 
    int P; // Number of Processors 

    /* MPI Initialisation */
    MPI_Init(&argc, &argv);

    MPI_Comm_rank(MPI_COMM_WORLD, &rank); 
    MPI_Comm_size(MPI_COMM_WORLD, &P);

    /* Each client processor receives ROWS/P set of arrays */
    if(rank != RANK_0){

        int i,j;
        int chunckSize= ROWS/P;

        MPI_Request *req[chunckSize]; // Requests
        MPI_Request *req1[chunckSize]; // Requests
        MPI_Status status[chunckSize];
        int ptr[chunckSize]; 

        int **buffRecv= malloc(chunckSize * sizeof(int *));

        for (i = 0; i < chunckSize ; i++) {
            buffRecv[i] = malloc(COLS * sizeof(int));

            MPI_Irecv(&ptr[i], 1, MPI_INT, RANK_0, TAG_1, MPI_COMM_WORLD, req1[i]);
            MPI_Irecv(buffRecv[i], COLS, MPI_INT, RANK_0, TAG_0, MPI_COMM_WORLD, req[i]);
            MPI_Wait(req1[i], MPI_STATUSES_IGNORE);
            MPI_Wait(req[i], MPI_STATUSES_IGNORE);  
        }

        printf("\n ===> Processor %d has recieved his set of rows, now start calculation: \n", rank);

        for(i = 0; i< chunckSize; i++){
          // print arrays row by row or do something

        }

        printf("\n Rank %d has done its tasks \n", rank);   


    } 
    else 
    {
        /* MASTER PROCESS*/

        int n=0;
        int k,i,j,dest,offset;
        int inc=1;
        MPI_Request *req[ROWS]; // Requests
        MPI_Request *req1[ROWS]; // Requests
        int chunkSize= ROWS/P;

        int **buf= malloc(ROWS * sizeof(int *));

        offset = chunkSize;
        for(dest = P; dest >= 0; dest--){

            // ROWS/P rows to each destination
            for (i = n; i < offset; i++)
            {
                buf[i] = malloc(COLS * sizeof(int));

                for (j = 0; j < COLS; j++)
                {
                    buf[i][j]=1;
                }

                if(dest == 0)
                {

                   // rank_0 chunk will be handled here
                }

                else
                {
                    MPI_Isend(&i, 1, MPI_INT, dest, TAG_1, MPI_COMM_WORLD, req1[i]); 
                    MPI_Isend(buf[i], COLS, MPI_INT, dest, TAG_0, MPI_COMM_WORLD, req[i]);
                }

             }

            // Print the result after each ROWS/P rows is sent
             if(dest != 0){
                 printf("Row[%d] to Row[%d] is sent to rank# %d\n", n, k, dest);
             } 

            n=offset;
            offset= offset + chunkSize;

        }
    } 

    MPI_Finalize();
}

Answer 1

这段代码中有很多问题，稍后我将尝试列举。但我认为最重要的一点是，请求的发送永远不会等待，并且会从一个目的地重新利用到下一个目的地。这是非常错误的，因为没有测试或等待点，发送操作很可能永远不会发生。我暂时留给你，然后慢慢编辑我的答案。

编辑：好了，现在让我们一步一步来：

内存管理：由于您计划将数据块分配给您的进程，因此最好使每次传输的大小最大化，从而使传输次数最小化。但是要一次性传输矩阵中的几行，您需要将数据连续存储在内存中。为了在保持 [i][j] 双括号访问简单性的同时实现这一点，您需要：首先为数据分配所需的整个存储空间，其次，为该数据分配一个指针指针，您将在上面指出每行的每个起始索引...这将如下所示：
```
int **matrix = malloc( ROWS * sizeof( int* ) );
matrix[0] = malloc( COLS * ROWS * sizeof( int ) );
for ( int i = 1; i < ROWS; i++ ) {
    matrix[i] = matrix[i-1] + COLS;
}
```
这远不是主要问题，但这是另一次的好方法。
请求问题：如前所述，您的发送请求没有等待，这是错误的。在您使用 MPI_Wait() 或 MPI_Waitall() 等待它之前，或者在您使用 MPI_Testxxx() 函数之一对其进行充分检查之后，才会完成任何 MPI 事务。最简单的就是这里用一个MPI_Waitall()
进程 #0 呢？它发送给自己，但永远不会收到发送的内容...
我没有检查块大小和偏移量，但我很确定如果进程数不能除以行数，你就会有麻烦。
最后（希望如此），您在这里尝试做的非常符合 MPI_Scatter() 或可能是 MPI_Scatterv()。既然你的记忆是线性存储的，看看它应该就能解决你的问题。

希望对您有所帮助。

使用非阻塞 MPI 函数发送矩阵的问题

Issue on sending a matrix using non-blocking MPI functions

c

parallel-processing

mpi

openmpi