介绍

DeepSeek介绍

Deepseek MOE架构

DeepSeek MOE技术详解

Group Relative Policy Optimization(GRPO,群体相对策略优化)

PPO & GRPO 可视化介绍_知乎

Multi-Head Latent Attention(MLA,多头隐式注意力)

再读MLA,还有多少细节是你不知道的_知乎

Multi-Token Prediction(MTP,多令牌预测)

AI Infra相关

以训练加速为主,如FP8混合精度训练、DualPipe等

强化学习

冷启动-强化学习(推理场景)-SFT-强化学习(全场景)四阶段训练

蒸馏

将R1推理能力蒸馏到小的稠密模型

参考