Qwen2.5-Coder 是阿里云通义大模型团队推出的代码模型。以下是关于它的一些详细信息:

  1. 训练基础与数据

    • 基于基础模型初始化:Qwen2.5-Coder 基于 Qwen2.5 基础大模型进行初始化,这为其提供了强大的语言理解和生成能力基础。
    • 丰富的数据来源:使用了源代码、文本代码混合数据、合成数据等进行训练,数据量达到 5.5T tokens。其中,代码数据主要来源于 Github,涵盖 92 种编程语言;合成数据则使用 Code-Qwen1.5 生成;数学数据取自 Qwen2.5-Math,因为数学和代码数据可以相互促进提升能力;文本数据来自 Qwen2.5,但去除了含有代码的部分。最终选用的代码、文本、数学的数据比例是 7:2:1。
  2. 功能优势

    • 强大的代码任务能力:在代码生成、代码推理、代码修复等核心任务上性能显著提升,能够帮助开发者更高效地编写、理解和修改代码。
    • 长上下文理解与生成:支持 128k tokens 的长上下文理解和生成,这对于处理复杂的代码项目和大型文档非常有帮助,可以让模型更好地理解代码的上下文关系,从而生成更准确、更完整的代码。
    • 多语言支持:支持 92 种编程语言,为开发者提供了广泛的语言选择,能够满足不同项目的需求。
  3. 开源情况

    • 全系列开源:推出了 0.5b/1.5b/3b/7b/14b/32b 等 6 个尺寸的全系列模型,每个尺寸都开源了 base 和 instruct 模型。Base 模型可供开发者微调,以满足不同项目的特定需求;instruct 模型则是开箱即用的官方对齐模型,方便开发者直接使用。
    • 许可证灵活:除 3b 模型采用 research only 许可外,其余模型均采用 apache2.0 许可证,为开发者提供了更多的使用灵活性。
  4. 性能表现

    • 其 32b 尺寸的旗舰模型 qwen2.5-coder-32b-instruct 在多个基准评测中取得开源最佳成绩,在代码生成等关键能力上超越了闭源模型 GPT-4O,在 evalplus、livecodebench、bigcodebench 等主流代码生成基准上刷新了开源模型的得分纪录,同时在考察代码修复能力的 aider、多编程语言能力的 mceval 等 9 个基准上优于 GPT-4O。

总的来说,Qwen2.5-Coder 的开源为开发者提供了强大的代码辅助工具,有望大幅提升 AI 编程性能和效率,推动开源大模型在编程领域的应用。