oneAPI GPU 优化指南 - 使用更多的 GPU 资源

本文介绍了如何通过OpenMP的Offload功能优化GPU性能,特别是通过使用collapse子句增加循环嵌套的并行性,以及不同collapse级别对性能的影响。实验表明,collapse(3)和collapse(4)显著提高了运行时间,提供了7.5倍的性能提升。

本章节翻译by chenchensmail@163.com  原文:OpenMP Offload Best Practices (intel.com)

可以通过使用更多可以并行运行的 work-item 来提高部署代码的性能,从而利用更多的 GPU 资源(填满 GPU )。

注意:

  • 循环迭代的 ND-range 划分由编译器和 runtime 启发式算法决定,还取决于 GPU 驱动程序和硬件配置。 因此它会随着时间而改变。但是,基于 LIBOMPTARGET_DEBUG=1 输出确定划分的方法将保持不变。

Collapse 子句

增加循环嵌套中并行性的一种方法是使用 collapse 子句将循环嵌套中的两个或多个循环折叠起来。 折叠会导致更多可以并行运行的迭代次数,从而在 GPU 上使用更多 work-item 。

在下面的示例中,一个由四个完美嵌套循环组成的循环嵌套被部署到 GPU 上。 parallel for 指令表示最外层循环(第 53 行)是并行的。循环中的迭代次数为 BLOCKS ,等于 8。

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <time.h>
 4
 5#include <math.h>
 6#include <omp.h>
 7
 8#define P 16
 9#define BLOCKS 8
10#define SIZE (BLOCKS * P * P * P)
11
12#define MAX 100
13#define scaled_rand() ((rand() % MAX) / (1.0 * MAX))
14
15#define IDX2(i, j) (i * P + j)
16#define IDX4(b, i, j, k) (b * P * P * P + i * P * P + j * P + k)
17
18int main(void) {
19  double w[SIZE];            /* output */
20  double u[SIZE], dx[P * P]; /* input */
21  int b, i, j, k, l;         /* loop counters */
22  double start, end;         /* timers */
23
24  omp_set_default_device(0);
25
26  /* dummy target region, so as not to measure startup time. */
27  #pragma omp target
28  { ; }
29
30  /* initialize input with random values */
31  srand(0);
32  for (int i = 0; i < SIZE; i++)
33    u[i] = scaled_rand();
34
35  for (int i = 0; i < P * P; i++)
36    dx[i] = scaled_rand();
37
38  /* map data to device */
39  #pragma omp target enter data map(to: u[0:SIZE], dx[0:P * P])
40
41  start = omp_get_wtime();
42
43  /* offload the kernel with no collapse clause */
44  #pragma omp target teams distribute parallel for \
45    private(b, i, j, k, l)
46  for (b = 0; b < BLOCKS; b++) {
47    for (i = 0; i < P; i++) {
48      for (j = 0; j < P; j++) {
49        for (k = 0; k < P; k++) {
50          double ur = 0.;
51          double us = 0.;
52          double ut = 0.;
53
54          for (l = 0; l < P; l++) {
55            ur += dx[IDX2(i, l)] * u[IDX4(b, l, j, k)];
56            us += dx[IDX2(k, l)] * u[IDX4(b, i, l, k)];
57            ut += dx[IDX2(j, l)] * u[IDX4(b, i, j, l)];
58          }
59
60          w[IDX4(b, i, j, k)] = ur * us * ut;
61        }
62      }
63    }
64  }
65
66  end = omp_get_wtime();
67
68  #pragma omp target exit data map(from: w[0:SIZE])
69
70  /* print result */
71  printf("no-collapse-clause: w[0]=%lf time=%lf\n", w[0], end - start);
72
73  return 0;
74}

编译命令:

icx -fiopenmp -fopenmp-targets=spir64 test_no_collapse.cpp

运行命令:

OMP_TARGET_OFFLOAD=MANDATORY ZE_AFFINITY_MASK=0.0 LIBOMPTARGET_DEBUG=1 ./a.out

libomptarget.so 调试信息(在环境变量 LIBOMPTARGET_DEBUG=1 时在运行时发出) 显示了循环迭代的 ND-range 划分以及如何通过使用 collapse 子句来增加并行性。 在输出中, Lb 和 Ub 分别指划分中每个维度的并行循环下限和上限。

没有 collapse 子句, LIBOMPTARGET_DEBUG=1 输出显示了关于第 50 行的 target 区域的以下信息。

Libomptarget --> Launching target execution __omp_offloading_3d_9b5f515d__Z4main_l45 with pointer 0x000000000143d5d8 (index=1).
Target LEVEL0 RTL --> Executing a kernel 0x000000000143d5d8...
Target LEVEL0 RTL --> Assumed kernel SIMD width is 32
Target LEVEL0 RTL --> Preferred group size is multiple of 64
Target LEVEL0 RTL --> Level 0: Lb = 0, Ub = 7, Stride = 1
Target LEVEL0 RTL --> Group sizes = {1, 1, 1}
Target LEVEL0 RTL --> Group counts = {8, 1, 1}

请注意,没有 collapse 子句,并行循环迭代次数 = 8 ,因为最外层循环(BLOCKS)的上限 = 8。 在这种情况下,我们最终得到 8 个 work-group ,每个 work-group 有一个 work-item (work-group 数量 = 8 x 1 x 1 = 8 ,每个 work-group 大小= 1 x 1 x 1 = 1个 work-item)。 kernel 使用 SIMD 32 进行矢量化,这意味着每个 work-group 中的 32 个 work-item 被合并成一个 sub-group。 由于我们每个 work-group 只有一个 work-item ,因此每个 work-group 只有一个 sub-group ,其中只有一个 SIMD 通道处于 active 状态。

我们可以通过在 parallel for 指令上添加一个 collapse 子句来增加并行性,从而增加 GPU 上使用的 work-item 数量。 我们首先添加 collapse(2) 子句,如下面修改后的示例所示。

49  /* offload the kernel with collapse clause */
50  #pragma omp target teams distribute parallel for collapse(2) \
51    private(b, i, j, k, l)
52  for (b = 0; b < BLOCKS; b++) {
53    for (i = 0; i < P; i++) {
54      for (j = 0; j < P; j++) {
55        for (k = 0; k < P; k++) {
56          double ur = 0.;
57          double us = 0.;
58          double ut = 0.;
59
60          for (l = 0; l < P; l++) {
61            ur += dx[IDX2(i, l)] * u[IDX4(b, l, j, k)];
62            us += dx[IDX2(k, l)] * u[IDX4(b, i, l, k)];
63            ut += dx[IDX2(j, l)] * u[IDX4(b, i, j, l)];
64          }
65
66          w[IDX4(b, i, j, k)] = ur * us * ut;
67        }
68      }
69    }
70  }

当使用 collapse(2) 时, LIBOMPTARGET_DEBUG=1 输出显示了以下划分。

Libomptarget --> Launching target execution __omp_offloading_3d_9b5f515f__Z4main_l45 with pointer 0x00000000017f45d8 (index=1).
Target LEVEL0 RTL --> Executing a kernel 0x00000000017f45d8...
Target LEVEL0 RTL --> Assumed kernel SIMD width is 32
Target LEVEL0 RTL --> Preferred group size is multiple of 64
Target LEVEL0 RTL --> Level 0: Lb = 0, Ub = 15, Stride = 1
Target LEVEL0 RTL --> Level 1: Lb = 0, Ub = 7, Stride = 1
Target LEVEL0 RTL --> Group sizes = {1, 1, 1}
Target LEVEL0 RTL --> Group counts = {16, 8, 1}

请注意,使用 collapse(2) 时,并行循环迭代次数 = BLOCKS x P = 8 x 16 = 128。 在这种情况下,我们最终得到 128 个 work-group ,每个 work-group 有 1 个 work-item (总 work-group 数量 = 16 x 8 x 1 = 128 ,每个 work-group 大小 = 1 x 1 x 1 = 1个 work-item)。 kernel 使用 SIMD 32 进行矢量化,这意味着每个 work-group 中的 32 个 work-item 被合并成一个 sub-group。 由于我们每个 work-group 只有一个 work-item ,因此每个 work-group 只有一个 sub-group ,其中只有一个 SIMD 通道处于 active 状态。

另一方面,如果我们使用 collapse(3) 子句,则 LIBOMPTARGET_DEBUG=1 输出显示以下划分。

Libomptarget --> Launching target execution __omp_offloading_3d_9b5f5160__Z4main_l45 with pointer 0x0000000001728d08 (index=1).
Target LEVEL0 RTL --> Executing a kernel 0x0000000001728d08...
Target LEVEL0 RTL --> Assumed kernel SIMD width is 32
Target LEVEL0 RTL --> Preferred group size is multiple of 64
Target LEVEL0 RTL --> Level 0: Lb = 0, Ub = 15, Stride = 1
Target LEVEL0 RTL --> Level 1: Lb = 0, Ub = 15, Stride = 1
Target LEVEL0 RTL --> Level 2: Lb = 0, Ub = 7, Stride = 1
Target LEVEL0 RTL --> Group sizes = {8, 1, 1}
Target LEVEL0 RTL --> Group counts = {2, 16, 8}

使用 collapse(3) 时,所产生的并行循环迭代次数 = BLOCKS x P x P = 8 x 16 x 16 = 2048。 在这种情况下,我们有 256 个 work-group ,每个 work-group 有 8 个 work-item (总 work-group 数量 = 2 x 16 x 8 = 256 ,每个 work-group 大小 = 8 x 1 x 1 = 8 个 work-item )。 kernel 使用 SIMD 32 进行矢量化,这意味着每个 work-group 中的 32 个 work-item 被合并成一个 sub-group。 由于我们每个 work-group 只有 8 个 work-item ,因此我们只有一个 sub-group,其中只有 8 个 SIMD 通道处于 active 状态。

如果我们使用 collapse(4) 子句而不是 collapse(3) 子句,则 LIBOMPTARGET_DEBUG=1 输出显示以下划分。

Target LEVEL0 RTL --> Executing a kernel 0x0000000001aab5d8...
Target LEVEL0 RTL --> Assumed kernel SIMD width is 32
Target LEVEL0 RTL --> Preferred group size is multiple of 64
Target LEVEL0 RTL --> Level 0: Lb = 0, Ub = 32767, Stride = 1
Target LEVEL0 RTL --> Group sizes = {64, 1, 1}
Target LEVEL0 RTL --> Group counts = {512, 1, 1}

使用 collapse(4) 时,所产生的并行循环迭代次数= BLOCKS x P x P x P = 8 x 16 x 16 x 16 = 32768。 在这种情况下,我们有 512 个 work-group ,每个 work-group 有 64 个 work-item (总 work-group 数量 = 512 x 1 x 1 =512 ,每个 work-group 大小 = 64 x 1 x 1 = 64 个 work-item)。 kernel 使用 SIMD32 进行矢量化,这意味着每 32 个 work-item 被合并成一个 sub-group。 因此每个 work-group 都有 2 个 sub-group。

使用 collapse 子句显著减少了循环嵌套的运行时间。在特定 GPU 上 runtime (仅 1 堆栈),各版本的性能如下:

没有 collapse 版本 : 0.002430 秒
collapse(2) 版本 : 0.000839 秒
collapse(3) 版本 : 0.000321 秒
collapse(4) 版本 : 0.000325 秒

上述时间显示添加 collapse(3) 或 collapse(4) 子句可提供约 7.5 倍的性能提升。(0.000321 秒对比 0.002430 秒)。

注意事项:

  • 在 GPU 上, collapse 子句可能根本不会导致任何实际的循环折叠, 但该子句向编译器和 runtime 传达了循环嵌套中的并行度,并用于确定 ND-range 划分。

  • 要利用矢量加载和存储,请建议不要将循环嵌套中的最内层循环包含在折叠中以便进行矢量化。 当最内层循环具有单位步长且迭代次数至少与 SIMD 宽度一样大时,将获得最佳性能。

上一章                                    主目录​​    上级目录                                                               下一章

代码转载自:https://pan.quark.cn/s/8ce4326d996e 对于在 CentOS 7 系统中修改网卡配置文件后无法使设置生效的情况,经过实践验证,可以通过使用 nmcli 命令来进行调整。完成修改之后,需要重新启动虚拟机以使更改生效,这样操作流程即告完成。如果设置仍然无法生效,则表明虚拟机在启动过程中所获取的 IP 地址配置并非针对 eth0,此时可以对其它网卡的配置文件进行修改或将其移除。在 CentOS 7 系统中,网络配置的管理机制与早期版本存在差异,主要体现为采用了 Network Manager 服务来负责网络接口的管理。在某些情形下,尽管修改了 `/etc/sysconfig/network-scripts` 目录下的 `ifcfg-eth0` 文件,但网络配置却未能即时生效。此类问题的发生通常源于 CentOS 7 采用了不同于以往的配置读取方法。接下来将具体阐述如何借助 nmcli 命令来处理这一挑战。 以 root 用户身份登录系统并打开终端界面。nmcli 是 Network Manager 提供的命令行界面工具,它支持在命令行环境下执行网络连接的建立、编辑、查询及管理任务。针对修改 eth0 网卡配置的需求,可以遵循以下步骤进行操作: 1. 导航至 `/etc/sysconfig/network-scripts` 目录: ``` cd /etc/sysconfig/network-scripts ``` 2. 检查该目录内是否存在 `ifcfg-eth0.bak` 文件,该备份文件可能是先前调整配置时遗留下来的,若存在可能造成冲突。若发现该文件,可以选择将其删除: ``` [root@localhost netw...
代码转载自:https://pan.quark.cn/s/46fd08fb879c 网管教程 从入门到精通软件篇 ★一。★详尽的xp修复控制台指令及其应用!!! 放入xp(2000)的光盘,安装时选择R,执行修复! Windows XP(涵盖 Windows 2000)的控制台指令是在系统遭遇某些意外状况时的一种极具效用的诊断、检测以及恢复系统功能的工具。笔者确实一直期望能够将这方面的指令进行归纳,此次由老范辛苦整理了这份极具价值的秘籍。 Bootcfg bootcfg 命令用于启动配置与故障恢复(对大多数计算机而言,即 boot.ini 文件)。 带有特定参数的 bootcfg 命令仅在运用故障恢复控制台时方可使用。能够在命令行界面下运用带有不同参数的 bootcfg 命令。 用法: bootcfg /default 设定默认引导选项。 bootcfg /add 向引导清单中增添 Windows 安装。 bootcfg /rebuild 重复整个 Windows 安装流程并让用户选择需添加的项目。 注意:运用 bootcfg /rebuild 之前,应先借助 bootcfg /copy 命令备份 boot.ini 文件。 bootcfg /scan 探查用于 Windows 安装的全部磁盘并展示结果。 注意:这些结果被静态存储,并用于当前会话。若在当前会话期间磁盘配置发生变动,为获取更新的探查结果,必须先重启计算机,然后再次探查磁盘。 bootcfg /list 列示引导清单中已有的项目。 bootcfg /disableredirect 在启动引导程序中禁用重定向。 bootcfg /redirect [ PortBaudRrate] |[ useBio...
代码下载链接: https://pan.quark.cn/s/fc524f791b68 AA制程,即Active Alignment,被理解为主动对准,是一种用于确定零部件装配中相对位置的方法。在摄像头封装阶段,涉及图像传感器、镜座、马达、镜头、线路板等多个部件的重复组装,而传统的封装设备如CSP及COB等,均是依据设备设定的参数进行零部件的移动装配,因而零部件的叠加误差会逐渐增大,最终在摄像头上表现为拍照最清晰的位置可能偏离画面中心、四边清晰度不均等现象。伴随智能手机和其他高端电子产品的普及,摄像头模组的性能正日益受到重视。高分辨率、卓越的低光表现以及稳定视频输出是现代用户所期望的。在摄像头模组的制造环节,各部件的精准定位对成像质量具有决定性作用。因此,一种名为“AA制程”(Active Alignment)的前沿技术被开发出来,成为摄像头精密对准的核心技术。 AA制程,即Active Alignment,是一种在摄像头封装过程中应用的主动对准方法。该方法在多个组件装配阶段发挥作用,涵盖图像传感器、镜座、马达、镜头和线路板等部件。传统的封装方式,例如CSP(Chip Scale Package)和COB(Chip On Board),依赖于设备预设的参数进行组装,但随着组件数量的增加,误差也会累积,最终影响摄像头的表现。例如在成像质量上可能出现中心位置偏移、四角清晰度不一致等问题。 AA制程技术的核心在于实时监测与主动调整。在组装过程中,它借助先进的检测设备持续监控半成品的状态,并根据实时信息对组装部件进行精确修正,从而显著降低装配误差。通过这种技术,能够确保摄像头模组中各组件的相对位置准确无误,从而使得最终的成像效果更加稳定,特别是在中心区域和四角的清晰度上...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值