Roofline 模型 - 如何计算 flop/byte 比率?

Roofline model - how to calculate flop/byte ratio?

我想创建 roofline 模型,但我遇到了每字节比率算法失败的问题。你能解释一下如何计算吗?该算法使用 5 点模板进行计算。

这是算法

for(int i=1; i<m-1; ++i) {
   for(int j=1; j<n-1; ++j) {
       outMax[i][j] = max( inMax[i][j], inMax[i][j-1], inMax[i][j+1],
                           inMax[i-1][j], inMax[i+1][j] );
   }
}
swap(inMax, outMax)

for(int i=1; i<m-1; ++i) {
   for(int j=1; j<n-1; ++j) {
      outMin[i][j] = min( inMin[i][j], inMin[i][j-1], inMin[i][j+1],
                          inMin[i-1][j], inMin[i+1][j] );
   }
}
swap(inMax, outMax)

通常,roofline 是针对每个循环或每个程序的。所以我可能会考虑 flop/byte 用于第一个循环,并单独考虑第二个循环。

对于每个循环:

  1. 你需要估计操作数,这(对于屋顶线和flop/byte 算术强度)通常等于所有ALU的数量(乘法、加法、除法等)操作,在循环的单次迭代中执行。 (就硬件指令而言,您必须考虑不会导致生成 MOV* 或跳转指令的操作)。在您的情况下,您只需要计算比较次数(因为 min/max 正在处理比较)。您的具体比较次数取决于 min()/max() 函数的实现。

  2. 你必须估计你读和写了多少字节from/to inMax(或者在第二种情况下from/to inMin);同样,您每次迭代都这样做。在您的情况下,您肯定会阅读 5*sizeof(double) == 40 bytes。你至少写了一个双倍。你如何 read/write min()/max() 函数内部的内存取决于它的实现。

  3. 您必须将这 2 个值彼此相除。在你的情况下 flop/byte 可能类似于 0.1,取决于 min()/max() 算法。

同时 自动 C/C++/Fortran 程序中每个循环和函数的 Roofline 模型生成(以及 flop/byte 指标)可用作为 Intel Advisor 产品从 2017 版本开始的第一个 class 功能,请参阅 https://software.intel.com/en-us/articles/intel-advisor-roofline, https://www.codeproject.com/Articles/1169323/Intel-Advisor-

请记住,一些车顶线变化在如何定义 "byte" 值方面有所不同。

找出 flop/byte 和模板的 roofline 模型是 roofline 专家和开发人员非常流行的话题。因此,通过查看下面的链接,您可能会找到足够的模板屋顶线示例来遵循并在您的特定情况下重新应用,无论是考虑 DRAM 还是 L1:

http://icsc2014.sjtu.edu.cn/wp-content/uploads/2014/05/Tutorial-Leopold1.pdf(特别是从第 17 页开始)

http://blogs.fau.de/hager/files/2014/05/Roofline_ECM_SPPEXA_PhD_2014.pdf