rlhf — 标签

强化学习中的奖励黑客：原理、案例与缓解方法

系统分析RL中奖励黑客的成因和案例，重点讨论RLHF训练大模型时的奖励黑客问题及缓解方案。

Lil'Log · 2026-04-05