寒武纪 MLU(Machine Learning Unit)是寒武纪科技推出的面向人工智能领域的专用处理器系列,针对深度学习、机器学习等计算密集型任务进行了优化,具有高性能、高能效比和灵活扩展的特点。以下从硬件架构、产品线、软件生态和应用场景等方面综合介绍:


一、硬件架构与核心技术

  1. 分层抽象模型
    MLU 硬件采用多级抽象模型,支持从服务器级到 MLU Core 级的灵活扩展,包括:

    • 服务器级:由多个 CPU 和 MLU 板卡组成,支持大规模集群部署。
    • Cluster 级:每 4 个 MLU Core 构成一个 Cluster,包含共享 SRAM 和专用 Memory Core(负责数据搬运),实现核间高效协作。
    • MLU Core 级:每个核心具备独立计算、IO 和控制功能,支持数据级并行(SIMD)和指令级并行(多流水线设计)。
  2. 存储层次
    MLU 的存储系统分为多级,包括私有存储(GPR、NRAM、WRAM)、共享存储(SRAM)和片外存储(LDRAM、GDRAM),通过显式或隐式数据迁移优化访存效率。

  3. 互联技术

    • MLU-Link:支持芯片间高速互联(如思元 290 的总带宽达 600GB/s),实现纵向扩展,满足大规模 AI 训练需求。
    • 芯粒(Chiplet)集成:通过组合不同功能的芯粒提升芯片灵活性和性能,例如 MLU370-X8 加速卡采用 MLU-Link 实现多芯片互联。

二、产品线与迭代

寒武纪 MLU 产品覆盖云、边、端全场景,主要分为以下系列:

  1. 云端芯片

    • MLU100(2018 年发布):首款云端 AI 芯片,采用 MLUv01 架构和 16nm 工艺,支持平衡模式(128 万亿次/秒)和高性能模式(166.4 万亿次/秒)。
    • 思元 290(2021 年):7nm 工艺,集成 460 亿晶体管,MLUv02 架构,支持训练与推理混合负载,峰值算力达 1024 TOPS(INT4)。
    • MLU370:最新训推一体芯片,支持 PCIe 4.0 和 MLU-Link 2.0,双向带宽 200GB/s,功耗 250W,适用于大规模 AI 集群。
  2. 边缘端与终端产品

    • MLU220:面向边缘推理,低功耗设计,适配智能安防、自动驾驶等场景。
    • 终端 IP 核(1A/1H/1M):授权给终端设备厂商,应用于手机、无人机等。

三、软件生态与编程模型

  1. BANG 异构计算平台

    • 编程模型:支持任务划分与并行执行,通过 Kernel 函数下发至 MLU 硬件,自动调度 Task 至不同 MLU Core,实现跨平台无缝迁移。
    • BANG C 语言:扩展 C/C++,提供并行原语和存储管理接口,支持开发跨云边端的 AI 应用,对标 NVIDIA CUDA。
  2. 工具链与库

    • CNNL/CNCL:对标 CuDNN 和 NCCL,提供高效算子库和通信库。
    • MagicMind:推理引擎,支持模型优化与部署。

四、应用场景与案例

  1. 云端智能处理

    • 联想 SR650 服务器(搭载 MLU100)曾打破 37 项基准测试纪录。
    • 科大讯飞采用 MLU 芯片优化语音处理,能效比领先 GPU 方案 5 倍。
  2. 大规模训练与推理

    • 玄思 1000 加速器(集成 4 颗思元 290)可替代小型超算中心,支持超 4.1 PetaOPS 算力。
  3. 边缘与终端

    • MLU220 应用于智能安防、工业质检等低延迟场景。

五、技术优势与发展方向

  • 能效比:MLU 硬件针对 AI 计算特性优化,相比通用处理器(如 CPU/GPU)显著提升性能功耗比。

  • 扩展性:通过 MLU-Link 和多 Cluster 设计,支持从单卡到超大规模集群的灵活扩展。

  • 未来趋势:持续迭代制程(如 7nm/5nm)、集成芯粒技术,并深化“云边端”一体化战略。

如需进一步了解特定产品参数或开发细节,可参考寒武纪官方文档及合作伙伴案例。