莱莱 发表于 7 天前

【上海大学计算机系统结构实验报告】多机环境下MPI并行编程

实验目标


[*]学习体例多进程并行步伐实现如下功能:
[*]创建多进程,输出进程号和进程数。
[*]运行多进程并行例子步伐。
[*]编程实现大规模矩阵的并行计算。

实验过程及效果分析

实验环境



[*]操纵系统:Ubuntu 20.04
[*]开发工具:GCC 9.3.0、OpenMPI 4.0.3
实验步骤

多主机无密码登录配置


[*] 在任意一台主机上生成RSA密钥对:
ssh-keygen -t rsa -C "Kevin"

​ 该命令将在用户主目次下的 ~/.ssh/ 目次中生成id_rsa和id_rsa.pub两个文件。

[*] 将生成的公钥内容追加至同目次下的 authorized_keys 文件中,授权本主机信托该密钥登录:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
此时,将该 authorized_keys 文件拷贝到其他主机,以建立互信。
[*] 为便于多主机通讯与配置,使用以下命令将三台主机分别命名为 master、slave1 和 slave2:
sudo vim /etc/hostname

[*] 编辑 /etc/hosts 文件,添加各主机的IP与主机名映射,比方:
192.168.1.100 master
192.168.1.101 slave1
192.168.1.102 slave2

[*] 重启三台主机,而后使用ssh 命令测试主机间的无密码登录是否见效。
安装MPI环境


[*] 在三台主机上分别执行以下命令安装MPI环境:
sudo apt install openmpi-bin libopenmpi-dev

[*] 验证安装是否成功:
mpicc --version
mpirun --version


https://i-blog.csdnimg.cn/img_convert/a9bd6d372b2e865b33d81096af7394a0.png 图 1 安装成功后会显示版本信息 配置NFS共享目次

​ 在多主机运行MPI步伐时,全部节点需要访问相同的可执行文件和输入输出路径。假如每台主机都独立保存一份代码和数据,会导致维护成本较高且容易堕落。因此,此次实验使用NFS(网络文件系统)在master节点上创建共享目次,并将其挂载到全部计算节点,从而确保各节点读取到的是同一份步伐和数据。
​ 具体步骤如下:

[*] 在master节点上配置NFS服务:

[*] 安装NFS服务端:
sudo apt install nfs-kernel-server


[*] 创建共享目次并设置权限:
sudo mkdir -p /home/ubuntu/shared


sudo chown -R ubuntu:ubuntu /home/ubuntu/shared


[*] 在/etc/exports文件中添加:
/home/ubuntu/shared *(rw,sync,no_subtree_check)


[*] 重启NFS服务使配置见效:
sudo exportfs -a
sudo systemctl restart nfs-kernel-server



[*] 在slave1和slave2节点上挂载共享目次:

[*] 安装NFS客户端:
sudo apt install nfs-common


[*] 创建本地挂载点:
sudo mkdir -p /home/ubuntu/shared


[*] 挂载共享目次:
sudo mount master:/home/ubuntu/shared /home/ubuntu/shared


​ 挂载完成后,从节点可直接访问/home/ubuntu/shared目次,并与master节点保持实时同步。
MPI步伐测试

单主机多进程测试

​ 在master节点上编译运行下面的MPI步伐,验证并行本领,假如主机的核心数不敷,可添加 --oversubscribe 参数从而答应多个进程共享核心。
#include <mpi.h>
#include <stdio.h>

int main(int argc, char **argv)
{
    MPI_Init(&argc, &argv);
    int world_rank;
    MPI_Comm_rank(MPI_COMM_WORLD, &world_rank);
    int world_size;
    MPI_Comm_size(MPI_COMM_WORLD, &world_size);
    printf("Hello from rank %d out of %d processors\n", world_rank, world_size);
    MPI_Finalize();
    return 0;
}
​ 运行效果:
https://i-blog.csdnimg.cn/img_convert/d90270e33fc23af5ba44977d95d02b46.png 图 2 单主机多进程测试效果 多主机多进程测试


[*]在master节点创建主机清单文件,在此中设置每个节点的slots数:
        master slots=2
        slave1 slots=2
        slave2 slots=2

[*] 使用--hostfile参数指定三台主机运行:
mpirun --hostfile hosts -np 6 ./mpi_hello
运行效果:
https://i-blog.csdnimg.cn/img_convert/b148d66e6d25d2ebcd39cf8b8428a9c0.png 图 3 多主机多进程测试效果 大规模矩阵并行计算测试

​ 在共享目次中编译并运行下面的矩阵乘法步伐 :
#include <stdio.h>
#include <stdlib.h>
#include <mpi.h>
#include <string.h>
#include <time.h>

#define MASTER 0

void MatrixGenerate(double *mat, int size) {
    for (int i = 0; i < size * size; ++i)
      mat = (double)rand() / RAND_MAX;
}

void LocalMatrixMultiply(double *a_local, double *b, double *c_local, int local_rows, int size) {
    for (int i = 0; i < local_rows; ++i)
      for (int j = 0; j < size; ++j) {
            double sum = 0.0;
            for (int k = 0; k < size; ++k)
                sum += a_local * b;
            c_local = sum;
      }
}

int main(int argc, char *argv[]) {
    int rank, size;
    MPI_Init(&argc, &argv);
    MPI_Comm_rank(MPI_COMM_WORLD, &rank);
    MPI_Comm_size(MPI_COMM_WORLD, &size);

    int test_sizes[] = {1000, 2000, 3000};
    int num_tests = sizeof(test_sizes) / sizeof(int);

    for (int test = 0; test < num_tests; ++test) {
      int matrix_size = test_sizes;
      int rows_per_proc = matrix_size / size;
      int remaining = matrix_size % size;
      int local_rows = rows_per_proc + (rank < remaining ? 1 : 0);
      int offset = rank * rows_per_proc + (rank < remaining ? rank : remaining);

      double *A = NULL, *B = NULL, *C = NULL;
      double *A_local = (double *)malloc(local_rows * matrix_size * sizeof(double));
      double *C_local = (double *)malloc(local_rows * matrix_size * sizeof(double));
      B = (double *)malloc(matrix_size * matrix_size * sizeof(double));

      if (rank == MASTER) {
            A = (double *)malloc(matrix_size * matrix_size * sizeof(double));
            C = (double *)malloc(matrix_size * matrix_size * sizeof(double));
            srand(time(NULL) + test);// 避免相同种子
            MatrixGenerate(A, matrix_size);
            MatrixGenerate(B, matrix_size);
      }

      // 广播 B 矩阵
      MPI_Bcast(B, matrix_size * matrix_size, MPI_DOUBLE, MASTER, MPI_COMM_WORLD);

      // 发送 A 子矩阵
      if (rank == MASTER) {
            int pos = 0;
            for (int i = 0; i < size; ++i) {
                int send_rows = rows_per_proc + (i < remaining ? 1 : 0);
                if (i == MASTER) {
                  memcpy(A_local, A + pos * matrix_size, send_rows * matrix_size * sizeof(double));
                } else {
                  MPI_Send(A + pos * matrix_size, send_rows * matrix_size, MPI_DOUBLE, i, 0, MPI_COMM_WORLD);
                }
                pos += send_rows;
            }
      } else {
            MPI_Recv(A_local, local_rows * matrix_size, MPI_DOUBLE, MASTER, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
      }

      // 开始计时并进行乘法
      double start = MPI_Wtime();
      LocalMatrixMultiply(A_local, B, C_local, local_rows, matrix_size);
      double end = MPI_Wtime();

      // 收集结果
      if (rank == MASTER) {
            int pos = 0;
            memcpy(C + pos * matrix_size, C_local, local_rows * matrix_size * sizeof(double));
            pos += local_rows;
            for (int i = 1; i < size; ++i) {
                int recv_rows = rows_per_proc + (i < remaining ? 1 : 0);
                MPI_Recv(C + pos * matrix_size, recv_rows * matrix_size, MPI_DOUBLE, i, 1, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
                pos += recv_rows;
            }
            printf("Matrix Size %dx%d, Time = %.3f seconds\n", matrix_size, matrix_size, end - start);
      } else {
            MPI_Send(C_local, local_rows * matrix_size, MPI_DOUBLE, MASTER, 1, MPI_COMM_WORLD);
      }

      // 清理内存
      free(A_local); free(C_local); free(B);
      if (rank == MASTER) {
            free(A); free(C);
      }
    }
​ 单主机运行效果:
https://i-blog.csdnimg.cn/img_convert/c0cd7290dd2bdae689b71d2f4d9f7113.png 图 4 单主机矩阵运算效果 ​ 多主机运行效果:
https://i-blog.csdnimg.cn/img_convert/8cef82acdf3021fff2cd2bb7a4a23afa.png 图 5 多主机矩阵运算效果 ​ 可以看到,随着任务规模扩大,多主机MPI并行计算在性能上显现出显着上风。
标题分析

​ 初次运行步伐时,可能出现通讯错误:
ubuntu@master:~/shared$ make runs
mpirun --hostfile hosts -np 6 ./mpi_matrix
[,2] received unexpected process identifier [,3]
​ 经排查发现,原因在于通过OpenMPI举行多主机运行时,OpenMPI会探求主机之前的全部IP接口,但是步伐现实上不会用到全部的IP接口,从而发生运行时阻塞或连接被拒绝得标题。以是此时需要通过--mca btl_tcp_if_include 参数来限制网络接口。
mpirun --hostfile hosts --mca btl_tcp_if_include eth0 -np 6 ./mpi_matrix
​ 通过显式指定接口为eth0后,标题得以办理。
总结

​ 通过本次实验,我系统把握了分布式MPI环境的搭建流程,也进一步巩固了SSH无密码登录以及NFS共享配置的方法。实验中通过多主机MPI步伐运行验证了并行计算在大规模数据处理中的高效性。这让我联想到在数据库系统中也有通过部署大规模集群来实现高并发访问和海量数据处理的本领,不过我并不确定这两者之间的原理是否相同,盼望以后有时机能进一步学习此中的原理。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【上海大学计算机系统结构实验报告】多机环境下MPI并行编程