大模型微调的常见方案

大模型微调是提升模型在特定任务上性能的关键步骤，以下是几种常见的微调方案：

LoRA（Low-Rank Adaptation）：在模型的关键层引入低秩矩阵来微调模型。例如，在医疗健康文本处理中，通过引入低秩矩阵调整权重，使模型适应专业术语。
QLORA（Quantized Low-Rank Adaptation）：结合LoRA与深度量化技术，通过4-bit和16-bit混合精度处理，减少显存占用。例如，原本需80GB显存的LLaMA-33B模型，仅需单张RTX 4090显卡即可完成微调。
适配器调整（Adapter Tuning）：在模型层间插入小型神经网络模块“适配器”，仅训练适配器参数。如将文本生成模型微调为金融报告生成模型，仅更新适配器参数。
前缀调整（Prefix Tuning）：在输入序列前添加可训练的任务特定前缀，而非调整模型权重。这种方法节省存储空间和微调成本。
提示调整（Prompt Tuning）：在输入中引入可学习嵌入向量作为提示，指导模型输出适合特定任务的响应。
P-Tuning及其改进版P-Tuning v2：P-Tuning使用可训练的LSTM模型动态生成虚拟标记嵌入。P-Tuning v2在多层插入独立的连续提示，增加可训练参数量，提升模型稳定性。

对模型的所有参数进行训练微调。但这种方法存在训练成本高和灾难性遗忘（Catastrophic Forgetting）的问题。

从训练数据来源和方法角度，大模型微调有以下技术路线：

监督式微调（SFT，Supervised Fine Tuning）：使用人工标注的数据进行微调。
基于人类反馈的强化学习微调（RLHF，Reinforcement Learning with Human Feedback）：将人类反馈通过强化学习引入微调。
基于AI反馈的强化学习微调（RLAIF，Reinforcement Learning with AI Feedback）：反馈来源于AI，解决反馈系统效率问题。

不同的微调方法适用于不同的场景和需求，可以根据具体任务选择合适的方案。