Llama3

Llama3是Meta公司推出的大型语言模型，代表了Meta在大型语言模型领域的最新创新和突破。以下是Llama3的一些关键信息：

模型版本和性能：Llama3包括8B和70B两个不同大小的版本，这两个版本在多个基准测试中都取得了优于其他开源模型的成绩，例如在MMLU、ARC、DROP和HumanEval等9个基准测试中，8B版本的Llama3优于Mistral的Mistral 7B和Google的Gemma 7B，而70B版本的Llama3超越了Claude 3 Sonnet，并可与Google的Gemini 1.5 Pro匹敌。
模型架构：Llama3基于Transformer架构，使用了有监督微调（SFT）和人类反馈的强化学习（RLHF）来与人类偏好对齐，以提高实用性和安全性。
训练数据：Llama3在超过15万亿个标记的公开可用数据上进行了预训练，微调数据包括公开可用的指令数据集，以及超过1000万个人工标注示例。预训练数据和微调数据均不包括Meta用户数据。
数据规模和训练效率：Llama3使用超过15T的token公开文本训练数据，规模比Llama 2大7倍。利用10K级别的GPU小时进行规模化训练，提高训练效率3倍以上。
多语言和多模态支持：目前发布的Llama3仅支持文本输入和输出，但Meta计划在今年晚些时候发布405B（也称400B）和多模态版本。
开源态度：Meta保持开源态度，Llama3的发布被视为开源界的历史性突破，与不开放的Open AI形成对比，Meta的开源态度受到业界和开发者的尊重。
中文支持：Llama3可以理解中文问题的意思，但输出内容一般还是英文。在提示词（Prompt）中要求用中文时，会使用中文或中英文结合作答，在中文方面的表现还有很大提升空间。

Llama3的发布，不仅在技术上刷新了纪录，更在商业和学术界产生了深远的影响，推动了AI领域的开放创新。

Llama3

相关文档

LLM相关文章

Meta相关文章

最近热门

最常浏览