hpc help manual — 常见问题解答¶
- 1.登陆问题
- 2.编译问题
- 在 TH-1A 系统上,使用 mpf90 编译并行程序,提示说 command not found
- 我需要使用高版本的 python,可以我输入 python 后,系统显示的是 Python 2.6
- 在使用 python 的 numpy 时提示无法找到 ImportError: No module named Numpy
- 常见的 undefined reference to`问题解决办法
- 在链接 MKL 库时,报错undefined reference to dgemm_ ***
- 用户在天河上安装商业软件无法正常使用
- 使用 Intel 编译器编译时报错:ld: cannot find -lm
- 使用 gfortran 编译程序,同时调用 liblapack.a 和 libblas 时在链接过程中报错
- 3.作业运行问题
- 为什么我用 yhi命令看到很多 idle 的节点,但是我提交作业后,作业不能立即执行?
- 我用 yhrun提交完作业以后,网络或终端断掉后,我的作业也相应停止
- 请问您们的系统上的内存最大是多少 G? 我的并行程序需要使用 48G 或更大一些内存怎么办?
- 请问我们的计算任务到某一时刻自动终止了,提示是有节点 due to time limit 而终止程序,请问贵中心的计算任务是有时间限制的吗?
- 任务提交后显示在计算,然后任务消失,也没有输出 slurm-*-out 文件
- 任务突然运行速度变慢
- 任务输出结果总是显示 Disk quota exceeded
- 运行作业提示error while loading shared libraries: libXXX.so: cannot openshared object file: No such file or directory
- 作业运行时提示:couldn’t chdir to ‘/vol-th/home/daix’: No such file or directory: going to /tmp instead
- 在计算节点上运行程序,找不到某些命令,比如说提示 bc: Command not found
- PBS 作业系统里查看运行的节点名称的变量 $PBS_NODELINE,在 TH-1A 里对应哪一个变量?
- 提交作业后,提示 yhbatch: error: Batch job submission failed: User’s group not permitted to use this partition
- 任务提交运行后,有时在还未达到队列的时间天数期限时,运行的程序已“停止工作”(输出文件没有更新),但是通过作业查询命令 yhq 查看,作业看起还在 R 运行
- 运行作业报错 slurmd[cn4234]: Cannot send after transport endpoint shutdown
- 运行作业报错 yhrun: error: Task launch for 2440965.0 failed on node cn2892: Job credential expired
- 运行作业报错 forrtl: severe (41): insufficient virtual memory
- 提交作业报错 yhbatch: error: Batch job submission failed: Batch job violates accounting/QOS policy(job submit limit, user’s size and/or time limits)
- 提交的在运行的工作,刚刚发现状态都变显示为 S,另外,其他几个显示 PD 的工作,NODELIST 也显示为 PartitionDown 。不知是否是由于中心在做一些维护所致,这会影响这些工作的运行吗?
- 作业运行的状态为 CG,自己也杀不掉这个作业,是否影响我的使用,这个问题如何解决?
- 输出的 slurm 文件中是如下数据:yhrun: got SIGCONT。我在天河服务器用户手册上没找到这条数据的解释。请问这条数据代表什么意思?
- 使用天河software目录下的一个 mpi 实现编译程序,运行时 slurm 文件中提示报错
- 程序运行报错:Fatal Error: This program was not built to run in your system.
- 4.存储问题
- 5.GPU使用问题
- 6.其他问题