问题出发点
RLHF 在产品落地里默认了一个常被忽略的前提:“用户偏好是统一的”。但真实产品里,不同用户对同一任务往往有不同偏好。RMGAP 想回答的问题是:
当前主流奖励模型,能否识别同一任务下用户之间的偏好差异?
数据与评测设计
围绕 Chat、Writing、Reasoning、Safety 四类场景,构建一份偏好泛化评测集:
- 规模:1,097 条评测实例、4,388 条风格化回复、13,164 条提示。
- 风格空间:五维语言风格空间,用作偏好差异的可控变量。
- 数据生产:7 个前沿 LLM 生成候选回复,多阶段流水线产出。
- 质量控制:双评审 + 仲裁机制,控制偏好标签一致性。
评测结论
对 24 个主流奖励模型进行系统评测,提出三类指标:
- Pairwise accuracy
- Best-of-N accuracy
- Ranking Consistency
最优模型的 Best-of-N 准确率仅为 49.27%,说明现有奖励模型在「个性化偏好泛化」上仍有明显短板。代码与数据已开源:nanzhi84/RMGAP。