介绍
Deepseek MOE架构
Group Relative Policy Optimization(GRPO,群体相对策略优化)
Multi-Head Latent Attention(MLA,多头隐式注意力)
Multi-Token Prediction(MTP,多令牌预测)
AI Infra相关
以训练加速为主,如FP8混合精度训练、DualPipe等
强化学习
冷启动-强化学习(推理场景)-SFT-强化学习(全场景)四阶段训练
蒸馏
将R1推理能力蒸馏到小的稠密模型