DeepSeek是杭州深度求索人工智能基础技术研究有限公司推出的一系列大语言模型及相关技术,以下是关于它的详细介绍:

公司信息

  • 成立时间:2023年7月17日。

  • 创始人:由知名量化资管巨头幻方量化创立。

  • 注册资本:2023年8月2日变更为1000万元。

  • 经营范围:技术服务、技术开发、软件开发等。

模型发布历程

  • 2024年1月5日:发布DeepSeek LLM,包含670亿参数,在2万亿token的数据集上训练,涵盖中英文,在推理、编码、数学和中文理解等方面有出色表现。

  • 2024年1月25日:发布DeepSeek-Coder,由一系列代码语言模型组成,在多种编程语言和基准测试中达开源代码模型先进性能。

  • 2024年2月5日:发布DeepSeekMath,以DeepSeek-Coder-V1.5 7B为基础,在数学相关token等数据上预训练,在竞赛级数学基准测试中成绩优异。

  • 2024年3月11日:发布DeepSeek-VL,是开源视觉-语言模型,采用混合视觉编码器,在视觉-语言基准测试中有先进性能。

  • 2024年5月7日:发布DeepSeek-V2,是强大的混合专家语言模型,以经济高效的训练和推理为特点,包含2360亿个总参数。

  • 2024年6月17日:发布DeepSeek-Coder-V2,是开源混合专家代码语言模型,在代码特定任务中达与GPT4-Turbo相当的性能。

  • 2024年12月13日:发布DeepSeek-VL2,是先进的大型混合专家视觉-语言模型系列,在多种任务中展现卓越能力。

  • 2024年12月26日:上线DeepSeek-V3首个版本并开源,在知识类任务上水平显著提升,在数学竞赛中大幅超过其他模型,生成速度提升至60tps。

  • 2025年1月20日:推出DeepSeek-R1,一夜之间在GitHub上收获4k+star。该模型有DeepSeek-R1-zero和DeepSeek-R1两个版本,在数学、代码、自然语言推理上和OpenAI的O1正式版不相上下,在多个基准测试中展现了卓越的性能。

技术特点

  • 高效训练与推理:如DeepSeek-V2以经济高效的训练和推理为特点,与DeepSeek67B相比,节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提升至5.76倍。

  • 强大的参数与性能:DeepSeek-V3有6710亿参数,在14.8万亿token的数据集上训练,在知识类任务、数学竞赛等方面表现出色,接近或超过诸多先进模型。

  • 创新训练方式:DeepSeek-R1的DeepSeek-R1-zero版本完全通过纯粹的RL训练,跳过监督微调,引入self-play、grpo以及cold start等创新技术,提升模型推理能力等。

应用领域

  • 教育领域:可用于辅助教学、作业批改、智能辅导等,帮助学生更好地理解和掌握知识,如DeepSeek-R1可用于高级教育或作为智能辅导系统工具。

  • 软件开发:DeepSeek-Coder等模型能协助开发人员进行代码生成、代码审查、代码调试等工作,提高开发效率和代码质量。

  • 科研领域:凭借强大的语言理解和生成能力,可帮助科研人员进行文献综述、数据分析、研究问题探索等工作,为科研提供支持。

  • 多模态应用:DeepSeek-VL和DeepSeek-VL2等视觉-语言模型可用于图像理解、视觉问答、文档分析等多模态任务,在智能安防、医疗影像分析、自动驾驶等领域有应用潜力。