General Preference Modeling(GPM)是一种用于对齐基础模型与人类价值观的偏好建模方法。它通过在潜在空间中嵌入响应来有效地捕获复杂的偏好结构,实现了线性查询复杂度。GPM通过偏好表示学习,将响应嵌入到多维潜在空间中,以捕捉超出传递关系的复杂偏好结构,同时允许高效查询偏好。
GPM的主要贡献包括:
-
偏好表示学习:GPM通过将响应嵌入到潜在空间中,扩展了Bradley-Terry (BT) 奖励模型,捕获包括非传递偏好在内的复杂偏好结构。GPM在评估K个响应之间的偏好时,实现了O(K)的查询复杂度,这是对传统依赖成对输入的监督偏好模型O(K^2)复杂度的显著改进。
-
偏好分数:GPM定义了两个响应之间的偏好分数,使用逻辑函数来模拟偏好概率,并展示了GPM在处理循环偏好(例如,循环偏好)时的100%准确性,而BT奖励模型的表现就像随机猜测。
-
General Preference Optimization (GPO):GPM提出了一种基于偏好分数的优化方法,该方法可以集成到多种RLHF和偏好优化方法中,如迭代DPO、SPPO和基于PPO的方法。实验结果表明,GPM在下游任务中,如AlpacaEval2.0和MT-Bench,通过GPO和GPM的偏好模型进行语言模型后训练,显示出显著的性能提升,提升幅度高达9.3%。
GPM在多个基准测试中一致优于传统的BT模型和监督偏好模型,包括循环偏好数据集和来自RewardBench的实际任务。此外,将GPM的偏好分数纳入策略优化方法,如SPPO和新引入的GPO,可以在需要与复杂人类偏好对齐的下游任务中显著提高性能,如在AlpacaEval 2.0和MT-Bench基准测试中所示。