使用分布式深度学习平台训练模型时,打印了auc随时间变化的曲线图,发现auc在某个时间段存在跳跃。
网上查了下,没查到相关资料。与一些同事交流后,感觉是梯度变化导致的问题,于是做了梯度裁剪,但裁剪时速度太慢。
后来分析了下,将学习率调小了10倍,然后重跑时就没发现梯度跳跃的问题了。
使用分布式深度学习平台训练模型时,打印了auc随时间变化的曲线图,发现auc在某个时间段存在跳跃。
网上查了下,没查到相关资料。与一些同事交流后,感觉是梯度变化导致的问题,于是做了梯度裁剪,但裁剪时速度太慢。
后来分析了下,将学习率调小了10倍,然后重跑时就没发现梯度跳跃的问题了。