电商AI代理的“虚拟健身房”:可验证环境如何让大模型学会真正卖货 该研究将强化学习环境从逻辑谜题扩展到电商对话,通过8个可算法验证的场景,训练AI代理从“会聊天”到“会办事”。 Hugging Face Blog · 2026年4月16日
TRL v1.0:迎接动态变化的后训练库新纪元 TRL v1.0的发布标志着后训练库的重大转变,专为应对快速变化的AI领域而设计,提供稳定性与实验性并存的开发环境。 Hugging Face Blog · 2026年3月31日