大模型微调是提升模型在特定任务上性能的关键步骤,以下是几种常见的微调方案:

参数高效微调(PEFT)

  • LoRA(Low-Rank Adaptation):在模型的关键层引入低秩矩阵来微调模型。例如,在医疗健康文本处理中,通过引入低秩矩阵调整权重,使模型适应专业术语。
  • QLORA(Quantized Low-Rank Adaptation):结合LoRA与深度量化技术,通过4-bit和16-bit混合精度处理,减少显存占用。例如,原本需80GB显存的LLaMA-33B模型,仅需单张RTX 4090显卡即可完成微调。
  • 适配器调整(Adapter Tuning):在模型层间插入小型神经网络模块“适配器”,仅训练适配器参数。如将文本生成模型微调为金融报告生成模型,仅更新适配器参数。
  • 前缀调整(Prefix Tuning):在输入序列前添加可训练的任务特定前缀,而非调整模型权重。这种方法节省存储空间和微调成本。
  • 提示调整(Prompt Tuning):在输入中引入可学习嵌入向量作为提示,指导模型输出适合特定任务的响应。
  • P-Tuning及其改进版P-Tuning v2:P-Tuning使用可训练的LSTM模型动态生成虚拟标记嵌入。P-Tuning v2在多层插入独立的连续提示,增加可训练参数量,提升模型稳定性。

全量微调(FFT,Full Fine Tuning)

对模型的所有参数进行训练微调。但这种方法存在训练成本高和灾难性遗忘(Catastrophic Forgetting)的问题。

其他微调技术

  • SSF(Scaling & Shifting Your Features):对模型的特征进行缩放和位移来优化性能。
  • LORA+MoE(Mixture of Experts):结合LoRA与混合专家模型框架,克服稠密模型的参数效率瓶颈。

微调技术路线

从训练数据来源和方法角度,大模型微调有以下技术路线:

  • 监督式微调(SFT,Supervised Fine Tuning):使用人工标注的数据进行微调。
  • 基于人类反馈的强化学习微调(RLHF,Reinforcement Learning with Human Feedback):将人类反馈通过强化学习引入微调。
  • 基于AI反馈的强化学习微调(RLAIF,Reinforcement Learning with AI Feedback):反馈来源于AI,解决反馈系统效率问题。

不同的微调方法适用于不同的场景和需求,可以根据具体任务选择合适的方案。