初赛
任务:阅读理解
分数以提高准确率为准,最后方案albert xx large ,fp16 多机多卡
决赛
冻结参数,减少seq-len+停用词策略,apex fp16 ,dynamic loss scale
Loss Scaling方法通过在前向计算所得的loss乘以loss scale系数S,起到在反向梯度计算过程中达到放大梯度的作用,从而最大程度规避浮点计算中较小梯度值无法用FP16表达而出现的溢出问题。在参数梯度聚合之后以及优化器更新参数之前,将聚合后的参数梯度值除以loss scale系数S还原。
动态Loss Scaling通过在训练过程中检查梯度中浮点计算异常状态,自动动态选取loss scale系数S以适应训练过程中梯度变化,从而解决人工选取loss scale系数S和训练过程中自适应调整的问题。
初赛
框架
Megatron deepspeed gpt-neox CPM-1 CPM-2
sparse-attention
代码改动:
替换前向过程中的attention计算
8bitAdam:
替换优化器
bitsandbytes的8bitadam