BitBy
AI
RSS
中文
EN
🌙
← 返回首页
标签: rlhf
(1 篇)
强化学习中的奖励黑客:原理、案例与缓解方法
系统分析RL中奖励黑客的成因和案例,重点讨论RLHF训练大模型时的奖励黑客问题及缓解方案。
Lil'Log · 2026-04-05