DeepSeek关键技术详解

标签: deepseek 更新于: 2025/02/19 阅读:118 原文发表于：2025-02-18

介绍
Deepseek MOE架构
Group Relative Policy Optimization（GRPO，群体相对策略优化）
Multi-Head Latent Attention（MLA，多头隐式注意力）
Multi-Token Prediction（MTP，多令牌预测）
AI Infra相关
强化学习
冷启动-强化学习（推理场景）-SFT-强化学习（全场景）四阶段训练
蒸馏
参考

介绍

Deepseek MOE架构

DeepSeek MOE技术详解

Group Relative Policy Optimization（GRPO，群体相对策略优化）

PPO & GRPO 可视化介绍_知乎

Multi-Head Latent Attention（MLA，多头隐式注意力）

再读MLA，还有多少细节是你不知道的_知乎

Multi-Token Prediction（MTP，多令牌预测）

AI Infra相关

以训练加速为主，如FP8混合精度训练、DualPipe等

强化学习

冷启动-强化学习（推理场景）-SFT-强化学习（全场景）四阶段训练

蒸馏

将R1推理能力蒸馏到小的稠密模型

参考

DeepSeek关键技术详解_知乎