这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
adf:并行数的设置 [2015/12/11 09:39] – liu.jun | adf:并行数的设置 [2016/05/10 23:00] (当前版本) – 移除 liu.jun | ||
---|---|---|---|
行 1: | 行 1: | ||
- | ====== 如何进行ADF并行计算 ====== | ||
- | ADF已经自动包含了MPI等并行运算工具,不需要额外的编译。事实上重新编译对计算速度影响也很小。 | ||
- | |||
- | **一,使用图形界面提交任务(适合于Linux系统单个工作站、Windows系统;不适合于Linux集群、超算中心)** | ||
- | |||
- | |||
- | 使用图形界面提交任务,环境变量中NSCM的设置不能直接起效,而被图形界面中的Sequential或者interactive两种Queue中的NSCM所覆盖。改动方式: | ||
- | |||
- | ADFjobs界面:Queue — Edit Queue — Sequential,将export NSCM" | ||
- | |||
- | 另外,可以将Queue — Edit Queue — interactive,中的export NSCM" | ||
- | |||
- | Sequential和interactive的区别: | ||
- | |||
- | 前者:所有任务次第执行 | ||
- | |||
- | 后者:所有任务一起运行 | ||
- | |||
- | 在ADFinput界面使用File — run提交,则默认采用Sequential方式。如果要改成Interactive方式运行,可以在ADFjobs界面,选中需要运行的任务,然后为它们指定为Interactive队列(指定方式:按住Shift键,选中多个任务后,Queue — Interactive),然后在这些任务呗选中的状态下,点击jobs — run,那么被选中的任务就按照Interactive的方式运行。 | ||
- | |||
- | **二,使用命令行提交(适合没有图形界面的单个工作站、集群、超算中心)** | ||
- | |||
- | 备注:*表示文件名,例如water.run文件,如下省略为*.run,在使用的时候使用具体名字代替*即可。 | ||
- | |||
- | **1 单个工作站,直接运行*.run文件:** | ||
- | |||
- | * | ||
- | * cd 目标文件夹 | ||
- | * | ||
- | * chmod 700 *.run | ||
- | * nohup ./*.run >*.out & | ||
- | * ctrl d退出,关闭命令行窗口。注意,如果不按ctrl d退出,直接关闭命令行窗口,则任务也自动被关闭。 | ||
- | * | ||
- | |||
- | 如果不设置NSCM,那么提交任务的时候,自动以该节点最大核数并行,无论是否有其他进程在运行中。 | ||
- | |||
- | 如果要指定并行数,则在任务提交前命令行执行export NSCM=N即可,N表示您希望的并行数。 | ||
- | |||
- | 在这种运行方式下,系统的NSCM直接生效。即环境变量中设置的NSCM=N,则运行的时候,并行数即为N。N不能大于license允许的核数。如果没有设置NSCM,那么NSCM则自动赋值为运行计算的计算机的总核数。 | ||
- | |||
- | 如果是使用*.run文件提交,运行完毕之后,手工修改logfile为*.logfile,TAPE21改名为*.t21,out改名为*.out。 | ||
- | |||
- | **2 集群提交任务,用*.job文件提交:** | ||
- | |||
- | **0)**首先,在本地Windows服务器,运行一下该任务,运行几秒之后即可kill该任务,从而产生job文件。 | ||
- | |||
- | **1)**上传*.job文件某个工作目录(完整目录不能含空格、中文字符),并将PBS脚本文件或者LSF脚本文件也放置在该目录(脚本内容介绍见下方)。 | ||
- | |||
- | **2)**修改*.job文件中的一个路径参数:*.job文件如果是在Windows准备的,那么有一个执行路径提交到Linux集群之后,需要改动为集群中工作目录的值。例如,在本地Windows产生的*.job文件包含如下一段: | ||
- | |||
- | # -------------------------------------------------------------------------------- | ||
- | # on a batch system, the start.cmd will replace the next line to set DIRN properly | ||
- | # since the batch system may make a copy of the job script | ||
- | # -------------------------------------------------------------------------------- | ||
- | |||
- | DIRN=" | ||
- | |||
- | 如果当前工作目录(也就是上传到集群的*.job和*.pid文件所在的路径),例如为/ | ||
- | |||
- | 如果是在集群上通过ADFGUI保存任务到工作目录,那么这个值应该是不用修改的。 | ||
- | |||
- | 如果是进行片段分析计算,那么就会产生“片段数+1”个job文件,应该把所有的job文件都上传上去,并修改其中的主job文件,片段的job文件不需要修改。修改主job文件中所有关于Windows系统下,任务所在目录改为Linux系统下,任务所在目录。 | ||
- | |||
- | **3)**修改文件权限和格式: | ||
- | |||
- | dos2*unix *job | ||
- | chmod 700 *job | ||
- | | ||
- | **4)**通过bsub ./ | ||
- | |||
- | PBS或LSF脚本内容: | ||
- | |||
- | 需要将ADF的环境变量写入脚本,如下是一个LSF脚本范例(最后两行是关于ADF软件及运行的): | ||
- | |||
- | #!/bin/sh | ||
- | APP_NAME=intelg_small | ||
- | NP=16 | ||
- | NP_PER_NODE=4 | ||
- | RUN=" | ||
- | source / | ||
- | / | ||
- | |||
- | **PBS脚本也是类似的,只需要在标准脚本的基础上,写入最后两行相关的内容即可。**以下为PBS脚本的例子: | ||
- | |||
- | #!/bin/bash | ||
- | #PBS -N cc | ||
- | #PBS -l nodes=1: | ||
- | #PBS -q long | ||
- | #PBS -j oe | ||
- | #PBS -l walltime=168: | ||
- | |||
- | NPROCS=`wc -l < $PBS_NODEFILE` | ||
- | cd $PBS_O_WORKDIR | ||
- | cat $PBS_NODEFILE > machinefile | ||
- | source / | ||
- | / | ||
- | |||
- | 通过*.job这种方式提交任务,则不需要手动修改logfile、TAPE21、out。事实上在Linux工作站上也可以这样提交,但工作站一般不会安装PBS或者LSF,因此只需要上传*.job和*.pid,并按第2)、3)步修改之后,直接通过./ | ||
- | |||
- | 对于片段分析这样的多job文件任务,最后一行写入的应该是主job文件的文件名。主job文件会在运行的过程中自动调用各个片段计算的job文件。 | ||
- | |||
- | **如果运行有问题,可以咨询support@fermitech.com.cn。** |