DeepSeek已经发布了多个版本的模型,以下是基于现有信息整理的主要版本及其相关信息:
-
DeepSeek-Coder V2
- 发布时间:未明确给出具体日期,但提到了与DeepSeek V2 Chat合并升级的信息,因此可以推测是在2024年之前发布的。
- 模型大小:未直接提及,但从其他信息来看,可能有多种参数规模可供选择。
-
DeepSeek V2 Chat
- 发布时间:同上,可推测在2024年之前发布。
-
DeepSeek V2.5
- 合并了DeepSeek Coder V2和DeepSeek V2 Chat两个模型。
- 发布时间:2024年9月5日宣布合并升级。
- 技术方案:优化了写作任务、指令跟随等方面的表现,并提升了代码生成能力。
-
DeepSeek-R1
- 发布时间:2024年1月20日。
- 模型大小:完整体为671B(即6710亿参数),同时提供较小规模的版本如1.5B、7B、8B、14B、32B、70B等。
- 技术方案:采用强化学习进行训练,专注于高级推理任务,包括数学、代码生成和逻辑推理领域。
-
DeepSeek-V3
- 发布时间:2024年12月26日宣布上线并开源。
- 模型大小:未明确提及具体的参数量,但提到了总训练成本为557.6万美元。
- 技术方案:相比V2.5在知识类任务上的表现有所提升,并提高了文本生成的速度。
-
Janus-Pro-7B 和 Janus-Pro-1B
- 发布时间:2025年1月28日。
- 模型大小:分别为70亿参数和15亿参数。
- 技术方案:多模态模型,创新地对理解(图生文)和生成任务(文生图)的视觉编码进行了解耦。
这些信息涵盖了从2024年初到2025年初DeepSeek发布的一些主要模型。每个模型都有其特定的应用场景和技术特点,随着技术的发展,DeepSeek可能会继续推出新的模型版本。