大模型微调是提升模型在特定任务上性能的关键步骤,以下是几种常见的微调方案:
参数高效微调(PEFT)
- LoRA(Low-Rank Adaptation):在模型的关键层引入低秩矩阵来微调模型。例如,在医疗健康文本处理中,通过引入低秩矩阵调整权重,使模型适应专业术语。
- QLORA(Quantized Low-Rank Adaptation):结合LoRA与深度量化技术,通过4-bit和16-bit混合精度处理,减少显存占用。例如,原本需80GB显存的LLaMA-33B模型,仅需单张RTX 4090显卡即可完成微调。
- 适配器调整(Adapter Tuning):在模型层间插入小型神经网络模块“适配器”,仅训练适配器参数。如将文本生成模型微调为金融报告生成模型,仅更新适配器参数。
- 前缀调整(Prefix Tuning):在输入序列前添加可训练的任务特定前缀,而非调整模型权重。这种方法节省存储空间和微调成本。
- 提示调整(Prompt Tuning):在输入中引入可学习嵌入向量作为提示,指导模型输出适合特定任务的响应。
- P-Tuning及其改进版P-Tuning v2:P-Tuning使用可训练的LSTM模型动态生成虚拟标记嵌入。P-Tuning v2在多层插入独立的连续提示,增加可训练参数量,提升模型稳定性。
全量微调(FFT,Full Fine Tuning)
对模型的所有参数进行训练微调。但这种方法存在训练成本高和灾难性遗忘(Catastrophic Forgetting)的问题。
其他微调技术
- SSF(Scaling & Shifting Your Features):对模型的特征进行缩放和位移来优化性能。
- LORA+MoE(Mixture of Experts):结合LoRA与混合专家模型框架,克服稠密模型的参数效率瓶颈。
微调技术路线
从训练数据来源和方法角度,大模型微调有以下技术路线:
- 监督式微调(SFT,Supervised Fine Tuning):使用人工标注的数据进行微调。
- 基于人类反馈的强化学习微调(RLHF,Reinforcement Learning with Human Feedback):将人类反馈通过强化学习引入微调。
- 基于AI反馈的强化学习微调(RLAIF,Reinforcement Learning with AI Feedback):反馈来源于AI,解决反馈系统效率问题。
不同的微调方法适用于不同的场景和需求,可以根据具体任务选择合适的方案。