MiniCPM的发展与版本

  • MiniCPM-2B:面壁智能与清华大学自然语言处理实验室推出的仅有24亿参数的端侧大型语言模型。经过SFT后,在公开评测集上与Mistral-7B表现相近,中文、数学、代码能力更优,整体性能超越Llama2-13B、MPT-30B、Falcon-40B等。经DPO优化后,在MT-bench评测集上超越Llama2-70B-chat、Vicuna-33B等。

  • MiniCPM-3.0:是一个4B参数量的语言模型,相比MiniCPM1.0/2.0,功能更全面,综合能力大幅提升,多数评测集上的效果比肩甚至超越众多7B-9B模型。

  • MiniCPM-o 2.6:是一款开源的大型语言模型,采用先进的端到端多模态架构,能同时处理文本、图像、音频和视频等多种类型的数据,在多模态任务上表现出色。

  • MiniCPM-Llama3-V 2.5:以8B量级的大小超过了GPT-4V-1106、Gemini Pro等主流商用闭源多模态大模型,OCRBench得分达到725,还支持30多种语言的多模态能力。

MiniCPM的特点

  • 强大的工具与推理能力:MiniCPM3-4B在工具调用方面,在Berkeley Function Calling Leaderboard(BFCL)上取得9B规模以下SOTA,超越GLM-4-9B-chat、Qwen2-7B-instruct等。在数学推理方面,在Math Bench上超越GPT-3.5-Turbo及多个7B-9B模型,在Live Code Bench上超越Llama3.1-8B-instruct。

  • 出色的指令遵循能力:MiniCPM3-4B在英文指令遵循If Eval、中文指令遵循Follow Bench-Zh上的效果,超越GLM-4-9B-chat、Qwen2-7B-instruct等模型。

  • 卓越的长文本处理能力:MiniCPM原生支持32K上下文长度,提出LLMxMapReduce,理论可处理的上下文长度达到+∞,在综合性长文本评测基准Infinite Bench平均得分超越GPT-4、Kimi Chat等标杆模型。

  • 优秀的多模态与OCR能力:如MiniCPM-o 2.6在OpenCompass评测中,单图理解能力获70.2平均分,超越GPT-4o-202405、Gemini 1.5 Pro等。能处理高达180万像素的任何长宽比图像,在OCRBench评测中,在25B参数以下的模型中取得最优性能。

  • 良好的多语言与语音能力:MiniCPM-o 2.6支持超过30种语言的多语言功能,还支持双语(英语和中文)实时语音对话,并具有可配置的语音,在自动语音识别(ASR)和语音转文本(STT)翻译方面优于GPT-4o-realtime。

  • 高效性与易用性:MiniCPM具有先进的令牌密度,能以640个令牌处理180万像素的图像,比大多数模型减少75%的令牌数量。支持llama.cpp以实现本地设备上的高效CPU推理,提供int4和GGUF格式的量化模型及16种不同尺寸,还可使用LLaMA-Factory对新领域和任务进行微调。