Llama3是Meta公司推出的大型语言模型,代表了Meta在大型语言模型领域的最新创新和突破。以下是Llama3的一些关键信息:

  1. 模型版本和性能:Llama3包括8B和70B两个不同大小的版本,这两个版本在多个基准测试中都取得了优于其他开源模型的成绩,例如在MMLU、ARC、DROP和HumanEval等9个基准测试中,8B版本的Llama3优于Mistral的Mistral 7B和Google的Gemma 7B,而70B版本的Llama3超越了Claude 3 Sonnet,并可与Google的Gemini 1.5 Pro匹敌。

  2. 模型架构:Llama3基于Transformer架构,使用了有监督微调(SFT)和人类反馈的强化学习(RLHF)来与人类偏好对齐,以提高实用性和安全性。

  3. 训练数据:Llama3在超过15万亿个标记的公开可用数据上进行了预训练,微调数据包括公开可用的指令数据集,以及超过1000万个人工标注示例。预训练数据和微调数据均不包括Meta用户数据。

  4. 数据规模和训练效率:Llama3使用超过15T的token公开文本训练数据,规模比Llama 2大7倍。利用10K级别的GPU小时进行规模化训练,提高训练效率3倍以上。

  5. 多语言和多模态支持:目前发布的Llama3仅支持文本输入和输出,但Meta计划在今年晚些时候发布405B(也称400B)和多模态版本。

  6. 开源态度:Meta保持开源态度,Llama3的发布被视为开源界的历史性突破,与不开放的Open AI形成对比,Meta的开源态度受到业界和开发者的尊重。

  7. 中文支持:Llama3可以理解中文问题的意思,但输出内容一般还是英文。在提示词(Prompt)中要求用中文时,会使用中文或中英文结合作答,在中文方面的表现还有很大提升空间。

Llama3的发布,不仅在技术上刷新了纪录,更在商业和学术界产生了深远的影响,推动了AI领域的开放创新。