Llama 2详解

一文读懂Llama2的架构和推理过程

Llama2是Meta AI推出的大型语言模型,其架构和推理过程具有以下特点:

Llama2架构特点

  1. 模型尺寸:Llama2提供了7B、13B和70B三种尺寸的模型供选择,以满足不同场景下的需求。
  2. 经典架构沿用:7B和13B模型沿用了Llama 1的经典架构,而70B模型则采用了创新的分组查询注意力(GQA)架构。
  3. 预训练数据扩展:Llama2的预训练语料增加了40%,总量达到了2万亿个token,上下文长度是Llama 1的两倍,从2048个token拓展至4096个token。
  4. 分组查询注意力机制(GQA):30B以上的模型采用了分组查询注意力机制,以提高模型的推理速度。

Llama2推理过程

  1. Tokenizer:负责将输入的文本语句进行分词和编码,将词汇单元转换为模型能够处理的整数表示。
  2. Token Embedding:将输入的整数序列转换为高维的特征向量表示。
  3. 自注意力计算:Llama2使用自注意力机制来处理序列数据,其中70B模型采用了分组查询注意力机制(GQA)来提升推理速度。
  4. 前馈神经网络(FFN):FFN由两个线性层和一个激活函数组成,输入向量经过线性变换、激活函数(如SiLU),再经过另一个线性变换得到输出向量。
  5. Final RMSNorm归一化:输出向量进行归一化处理,输出一个概率数组logits,每个元素代表出现对应token的概率。
  6. 自回归生成:Llama2以自回归的方式生成token,不断将预测出的token拼接在提供的n个tokens后形成新的文本序列,以此继续预测下一个token。

Llama2的这些架构特点和推理过程使其在处理大规模数据和复杂任务时更加高效,同时保持了卓越的性能。