一、论文题目
《LLaMA: Open and Efficient Foundation Language Models》
二、作者
Hugo Touvron,Thibaut Lavril,Gautier Izacard,Xavier Martinet,Marie - Anne Lachaux,Timothee Lacroix,Baptiste Rozière,Naman Goyal,Eric Hambro,Faisal Azhar,Aurelien Rodriguez,Armand Joulin,Edouard Grave,Guillaume Lample
三、研究背景与动机
- 大型语言模型(LLMs)在文本指令或少量示例的基础上展示出执行新任务的能力,但训练这些模型通常依赖于大量数据和计算资源,且许多现有模型使用的数据集不公开或未记录。
- 近期研究表明,在给定计算预算的情况下,通过训练更多数据而非更大模型可以获得更好的性能,且对于服务于大规模语言模型,推理预算至关重要。
四、方法
- 预训练数据:使用公开可用的数据,包括英语CommonCrawl、C4、Github、Wikipedia、Gutenberg和Books3、ArXiv、Stack Exchange等,对数据进行预处理,包括去重、语言识别、质量过滤等,最终数据集包含约1.4T令牌。
- 架构:基于Transformer架构,进行了一些改进,包括预归一化、使用SwiGLU激活函数、添加Rotary Embeddings等。
- 优化器:使用AdamW优化器,采用余弦学习率调度,设置了特定的超参数,如,,权重衰减为0.1,梯度裁剪为1.0,使用2000个warmup步骤,并根据模型大小调整学习率和批量大小。
- 高效实现:使用xformers库中的高效因果多头注意力实现来减少内存使用和运行时间,通过检查点减少反向传播中重新计算的激活数量,使用模型和序列并行来减少内存使用。
五、主要结果
- 常识推理:在八个标准常识推理基准测试中,LLaMA - 65B在大多数基准测试中优于Chinchilla - 70B和PaLM - 540B,LLaMA - 13B在大多数基准测试中优于GPT - 3。
- 闭卷问答:在Natural Questions和TriviaQA基准测试中,LLaMA - 65B在零样本和少样本设置中均达到了最先进的性能,LLaMA - 13B在这些基准测试中与GPT - 3和Chinchilla具有竞争力。
- 阅读理解:在RACE阅读理解基准测试中,LLaMA - 65B与PaLM - 540B具有竞争力,LLaMA - 13B优于GPT - 3。
- 数学推理:在MATH和GSM8k数学推理基准测试中,LLaMA - 65B在GSM8k上的表现优于未在数学数据上微调的Minerva - 62B。
- 代码生成:在HumanEval和MBPP基准测试中,对于类似数量的参数,LLaMA优于LaMDA和PaLM等未专门针对代码进行训练或微调的模型,LLaMA - 65B也优于PaLM - 62B。
- 大规模多任务语言理解:在MMLU基准测试中,LLaMA - 65B落后于Chinchilla - 70B和PaLM - 540B,可能是因为预训练数据中书籍和学术论文的数量有限。
- 训练过程中的性能演变:在训练过程中,大多数基准测试的性能稳步提高,并与模型的训练困惑度相关,但SIQA和WinoGrande例外。
六、指令微调
- 简短地对指令数据进行微调可以迅速提高LLaMA在MMLU上的性能,进一步提高模型遵循指令的能力,如LLaMA - I(65B)在MMLU上的性能优于一些中等规模的指令微调模型,但仍远未达到最先进水平。
七、偏差、毒性和错误信息
- RealToxicityPrompts:使用该基准测试评估模型生成有毒语言的情况,发现毒性随着模型规模的增加而增加,尤其是对于“尊重”提示。
- CrowS - Pairs:在该数据集上评估模型的偏差,发现LLaMA与其他模型相比略有优势,但在宗教类别中