分布式训练性能BUG #139

leelinglin · 2022-05-26T09:16:48Z

1、python train.py 单卡训练速度9.0step/s
2、fleetrun train.py 单卡 use_amp = False 训练速度 9.0step/s use_amp=True 训练速度3.9step/s
3、fleetrun train.py 多卡(6卡) use_amp = False 训练速度3.0step/s use_amp=True 训练速度1.8step/s
问题1、使用use_amp后性能下降严重
2、使用fleetrun 分布式训练较单卡性能下降严重，使用3张卡才相当于之前一张卡，没有体现分布式加速训练的效果

sserdoubleh · 2022-05-28T18:26:44Z

需要你提供下完整的训练情况哈，包括机器环境，以及训练配置
机器环境：GPU类型、GPU driver版本，CUDA版本、CuDNN版本、NCCL版本、Paddle版本
训练配置：训练模型的规模、batch size设置、训练用数据（最好直接用knover自带的data/example来测试）、其他可能影响训练性能的配置
目前我测试使用 fleetrun train.py （即scripts/distributed/train.sh）在自带的example数据上，跑 projects/PLATO-2/pretrain/24L_train_stage-1.conf
在V100单卡上，CUDA10.2，Paddle2.2.2
使用use_amp=true（2.5steps/s）是会显著快于use_amp=false（0.75steps/s）

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

分布式训练性能BUG #139

分布式训练性能BUG #139

leelinglin commented May 26, 2022

sserdoubleh commented May 28, 2022

分布式训练性能BUG #139

分布式训练性能BUG #139

Comments

leelinglin commented May 26, 2022

sserdoubleh commented May 28, 2022