当强化学习遇上多模态生成:VeRL-Omni 如何让 Diffusion 模型学会“自我进化”?
原文: Announcing VeRL-Omni: Easy, Fast, and Stable RL Training for Diffusion and Omni-Modality Models
VeRL-Omni 是一个专为多模态生成模型设计的强化学习训练框架,它解决了在扩散模型和全模态模型上进行高效、稳定RL训练的工程难题,将LLM的RL训练范式扩展到了图像、视频、音频生成领域。
核心要点
- 专为多模态生成模型(扩散模型、全模态模型)设计的通用RL后训练框架
- 解决了多模态RL训练中的异构流水线调度、复杂负载和高内存峰值等核心工程难题
- 集成vLLM-Omni实现高效多模态生成,并支持灵活的规则/模型奖励引擎
- 提供模块化训练后端,支持多种并行策略和硬件(NVIDIA GPU/Ascend NPU)
- 已支持Qwen-Image、BAGEL等主流模型及FlowGRPO、MixGRPO等算法
深度解读
起因:为什么现在需要VeRL-Omni? 过去一年,大语言模型(LLM)的强化学习(RL)训练栈(如RLHF、GRPO)发展迅猛,成为模型对齐人类偏好和下游任务奖励的核心方法。然而,这套成熟的方法论在扩展到多模态生成领域时,却遇到了“水土不服”。图像、视频、音频的生成模型(尤其是基于Diffusion Transformer和全模态架构的模型)与自回归的文本生成有本质不同:它们的“生成”是在连续潜空间中进行多步去噪,而非离散token序列的逐个预测。这导致了三大工程挑战:一是如何高效调度由文本编码器、DiT、VAE等异构组件构成的复杂生成流水线;二是如何管理多模态生成(特别是视频)带来的极高内存峰值;三是如何设计能处理多模态输入(如用VLM评判生成图像中的OCR准确性)的奖励函数。现有的LLM RL框架无法直接应对这些挑战。因此,VeRL-Omni的出现,正是为了填补这一关键空白,将RL的强大对齐能力赋予下一代多模态生成模型。
拆解:它到底解决了什么问题? VeRL-Omni并非从零开始,而是构建在成熟的verl(LLM RL框架)和vLLM-Omni(多模态推理引擎)之上。它的核心价值在于一套精心设计的工程解决方案,可以通俗地理解为给多模态RL训练装上了“智能调度中心”和“高效流水线”。 首先,它通过集成vLLM-Omni,实现了高效的多模态rollout生成。vLLM-Omni的高吞吐异步服务,结合逐步连续批处理、嵌入缓存等技术,确保了生成环节的速度和精度。其次,它提供了一个灵活的奖励引擎,既能使用简单的规则奖励,也能集成VLM等模型作为“评委”进行复杂评估(例如判断生成图像里的文字是否正确),并且将奖励计算与生成、训练过程重叠,最大化减少等待时间。最后,它提供了模块化的训练后端,支持FSDP、USP、TP等多种并行策略,并针对扩散和全模态模型的特性进行了内置优化,同时兼容NVIDIA和华为昇腾硬件。这些特性共同作用,使得在Qwen-Image(文生图)、BAGEL(统一理解与生成)等模型上进行FlowGRPO、MixGRPO等先进RL算法训练变得可行且高效。
趋势洞察:RL正在成为多模态模型的“标准配置” VeRL-Omni的发布揭示了一个更深层的趋势:强化学习正从LLM的“后训练对齐工具”,演变为所有生成式基础模型的“标准能力增强器”。就像RLHF彻底改变了ChatGPT的对话质量一样,基于人类偏好或任务奖励的RL训练,正在成为提升图像生成可控性、视频生成连贯性、音频生成自然度的关键一环。这标志着多模态AI的发展重点,正从“能不能生成”转向“生成得有多好、多符合意图”。同时,该框架对异构硬件的支持也表明,多模态RL训练正在走向工程化、平台化,降低了顶尖研究团队之外的其他开发者应用这一技术的门槛。
实用价值:对开发者意味着什么? 对于AI从业者,尤其是关注多模态生成的开发者,VeRL-Omni的价值在于提供了一条可复现、高性能的路径。如果你正在微调一个文生图或文生视频模型,希望它生成的图像更少伪影、文字更准确,或者视频动作更连贯,那么现在可以尝试使用VeRL-Omni,结合VLM作为奖励模型,对你的扩散模型进行RL后训练。框架提供了开箱即用的示例(如Qwen-Image的OCR奖励任务)和性能基准,大大减少了从研究论文到工程实现的鸿沟。它使得过去只有大厂研究部门才能进行的复杂多模态RL训练,变得对更广泛的开发者社区触手可及。
反常识/意外:一个容易被忽视的角度 一个可能被忽视的点是,VeRL-Omni不仅支持生成任务,也支持多模态理解任务(如Qwen3-Omni-Thinker的文本/图像/视频/音频理解)。这意味着RL训练不仅能优化“生成”,也能优化“理解”,例如让模型在回答关于一张图片的问题时更准确、更符合人类逻辑。这暗示了RL在多模态领域的应用比我们最初想象的更广泛,它可能成为统一提升模型“感知”与“创造”能力的通用训练范式。
原文地址: Announcing VeRL-Omni: Easy, Fast, and Stable RL Training for Diffusion and Omni-Modality Models