用户工具

站点工具

本页面的其他翻译:
  • zh

adf:checkparampi

如何检查集群中并行性能

在out文件中,第一页略往下拉:

 Start   directory: /data/home/cmd_nlo/dd/ams/Task/H2O/tmp.cmd_nlo.275997.0.noindex/
 Results directory: /data/home/cmd_nlo/dd/ams/Task/H2O/04GCMC-SCAN.results/
 Scratch directory: /tmp/amstmp_ams_kid0.1957227754/


 Communication costs MPI_COMM_WORLD:      2.958 usec per message,   0.0221 usec per 8-byte item
 Communication costs for intra-node:      0.466 usec per message,   0.0095 usec per 8-byte item
  1. Scratch directory即临时文件夹,确保它处于本地文件夹,例如/tmp(/tmp一般不是在NFS共享的,在多个节点并行计算时,临时文件将保存在这些节点各自的/tmp文件夹下),千万不要放在/home之类的NFS共享文件夹内(即任何节点下,该文件夹内的文件是一样的,是各个节点共享的),但管理员应定期清理各个节点下/tmp内的陈旧文件。
  2. Communication costs MPI_COMM_WORLD,是节点间通信速度,2.958 微秒/条信息,确保不要大于100微秒,否则请联系管理员。越接近节点内通信速度,性能越高
  3. Communication costs for intra-node,是节点内通信速度,一般情况下会远小于节点间通信速度。如果节点间通信速度太慢,建议只进行节点内并行,不要跨节点并行。

计算结束后,翻到out文件的底部:

     Total cpu time:     103.48
  Total system time:       6.19
 Total elapsed time:     111.27

其中

  1. Total cpu time是CPU真正工作的时间,也就是“计算时间”
  2. Total system time系统内核消耗时间
  3. Total elapsed time通常略大于以上二者之和,如果差值较大,则表示消耗在磁盘读写或网络通信之类的等候时间太长

检查使用的网络是Ethernet还是InfiniBAND:环境变量中添加export I_MPI_DEBUG=30,则*.out文件正常内容开头会多出来一部分,这部分内容里面如果能搜到verbs或ofa、ofi,则是使用InfiniBAND;如果带tcp字样,则是使用Ethernet。

adf/checkparampi.txt · 最后更改: 2022/10/12 10:27 由 liu.jun

© 2014-2022 费米科技(京ICP备14023855号