General Preference Modeling（GPM）

General Preference Modeling（GPM）是一种用于对齐基础模型与人类价值观的偏好建模方法。它通过在潜在空间中嵌入响应来有效地捕获复杂的偏好结构，实现了线性查询复杂度。GPM通过偏好表示学习，将响应嵌入到多维潜在空间中，以捕捉超出传递关系的复杂偏好结构，同时允许高效查询偏好。

GPM的主要贡献包括：

偏好表示学习：GPM通过将响应嵌入到潜在空间中，扩展了Bradley-Terry (BT) 奖励模型，捕获包括非传递偏好在内的复杂偏好结构。GPM在评估K个响应之间的偏好时，实现了O(K)的查询复杂度，这是对传统依赖成对输入的监督偏好模型O(K^2)复杂度的显著改进。
偏好分数：GPM定义了两个响应之间的偏好分数，使用逻辑函数来模拟偏好概率，并展示了GPM在处理循环偏好（例如，循环偏好）时的100%准确性，而BT奖励模型的表现就像随机猜测。
General Preference Optimization (GPO)：GPM提出了一种基于偏好分数的优化方法，该方法可以集成到多种RLHF和偏好优化方法中，如迭代DPO、SPPO和基于PPO的方法。实验结果表明，GPM在下游任务中，如AlpacaEval2.0和MT-Bench，通过GPO和GPM的偏好模型进行语言模型后训练，显示出显著的性能提升，提升幅度高达9.3%。

GPM在多个基准测试中一致优于传统的BT模型和监督偏好模型，包括循环偏好数据集和来自RewardBench的实际任务。此外，将GPM的偏好分数纳入策略优化方法，如SPPO和新引入的GPO，可以在需要与复杂人类偏好对齐的下游任务中显著提高性能，如在AlpacaEval 2.0和MT-Bench基准测试中所示。

General Preference Modeling（GPM）

LLM相关文章

最近热门

最常浏览