RMGAP 奖励模型偏好泛化评测基准

问题出发点

RLHF 在产品落地里默认了一个常被忽略的前提：“用户偏好是统一的”。但真实产品里，不同用户对同一任务往往有不同偏好。RMGAP 想回答的问题是：

当前主流奖励模型，能否识别同一任务下用户之间的偏好差异？

围绕 Chat、Writing、Reasoning、Safety 四类场景，构建一份偏好泛化评测集：

对 24 个主流奖励模型进行系统评测，提出三类指标：

最优模型的 Best-of-N 准确率仅为 49.27%，说明现有奖励模型在「个性化偏好泛化」上仍有明显短板。代码与数据已开源：nanzhi84/RMGAP。