一、论文题目

《LLaMA: Open and Efficient Foundation Language Models》

二、作者

Hugo Touvron,Thibaut Lavril,Gautier Izacard,Xavier Martinet,Marie - Anne Lachaux,Timothee Lacroix,Baptiste Rozière,Naman Goyal,Eric Hambro,Faisal Azhar,Aurelien Rodriguez,Armand Joulin,Edouard Grave,Guillaume Lample

三、研究背景与动机

  • 大型语言模型(LLMs)在文本指令或少量示例的基础上展示出执行新任务的能力,但训练这些模型通常依赖于大量数据和计算资源,且许多现有模型使用的数据集不公开或未记录。
  • 近期研究表明,在给定计算预算的情况下,通过训练更多数据而非更大模型可以获得更好的性能,且对于服务于大规模语言模型,推理预算至关重要。

四、方法

  • 预训练数据:使用公开可用的数据,包括英语CommonCrawl、C4、Github、Wikipedia、Gutenberg和Books3、ArXiv、Stack Exchange等,对数据进行预处理,包括去重、语言识别、质量过滤等,最终数据集包含约1.4T令牌。
  • 架构:基于Transformer架构,进行了一些改进,包括预归一化、使用SwiGLU激活函数、添加Rotary Embeddings等。
  • 优化器:使用AdamW优化器,采用余弦学习率调度,设置了特定的超参数,如,权重衰减为0.1,梯度裁剪为1.0,使用2000个warmup步骤,并根据模型大小调整学习率和批量大小。
  • 高效实现:使用xformers库中的高效因果多头注意力实现来减少内存使用和运行时间,通过检查点减少反向传播中重新计算的激活数量,使用模型和序列并行来减少内存使用。

五、主要结果

  • 常识推理:在八个标准常识推理基准测试中,LLaMA - 65B在大多数基准测试中优于Chinchilla - 70B和PaLM - 540B,LLaMA - 13B在大多数基准测试中优于GPT - 3。
  • 闭卷问答:在Natural Questions和TriviaQA基准测试中,LLaMA - 65B在零样本和少样本设置中均达到了最先进的性能,LLaMA - 13B在这些基准测试中与GPT - 3和Chinchilla具有竞争力。
  • 阅读理解:在RACE阅读理解基准测试中,LLaMA - 65B与PaLM - 540B具有竞争力,LLaMA - 13B优于GPT - 3。
  • 数学推理:在MATH和GSM8k数学推理基准测试中,LLaMA - 65B在GSM8k上的表现优于未在数学数据上微调的Minerva - 62B。
  • 代码生成:在HumanEval和MBPP基准测试中,对于类似数量的参数,LLaMA优于LaMDA和PaLM等未专门针对代码进行训练或微调的模型,LLaMA - 65B也优于PaLM - 62B。
  • 大规模多任务语言理解:在MMLU基准测试中,LLaMA - 65B落后于Chinchilla - 70B和PaLM - 540B,可能是因为预训练数据中书籍和学术论文的数量有限。
  • 训练过程中的性能演变:在训练过程中,大多数基准测试的性能稳步提高,并与模型的训练困惑度相关,但SIQA和WinoGrande例外。

六、指令微调

  • 简短地对指令数据进行微调可以迅速提高LLaMA在MMLU上的性能,进一步提高模型遵循指令的能力,如LLaMA - I(65B)在MMLU上的性能优于一些中等规模的指令微调模型,但仍远未达到最先进水平。

七、偏差、毒性和错误信息

  • RealToxicityPrompts:使用该基准测试评估模型生成有毒语言的情况,发现毒性随着模型规模的增加而增加,尤其是对于“尊重”提示。
  • CrowS - Pairs:在该数据集上评估模型的偏差,发现LLaMA与其他模型相比略有优势,但在宗教类别中