告别文本时代：VeRL-Omni如何让多模态大模型学会“强化学习”？

原文: Announcing VeRL-Omni: Easy, Fast, and Stable RL Training for Diffusion and Omni-Modality Models

vLLM团队发布VeRL-Omni框架，首次为扩散模型和全模态模型提供稳定、高效的强化学习训练支持，标志着RLHF技术从文本向多模态的关键跨越。

核心要点

首次将RL训练系统扩展至扩散模型和全模态模型（图像/视频/音频生成与理解）
解决了多模态RL中的异构流水线调度、复杂奖励计算等核心工程难题
提供从算法、模型到硬件的全栈支持，显著降低多模态模型对齐的门槛
展示了FlowGRPO等新算法在图像生成质量优化上的实际效果

深度解读

起因：为什么现在需要多模态的“RLHF”？

过去一年，大语言模型（LLM）的强化学习训练（如RLHF、DPO）技术栈飞速成熟，成了让模型“说人话、办人事”的标准操作。但与此同时，一个更广阔的战场正在打开：图像、视频、音频的生成与理解模型。这些模型（如Stable Diffusion、Qwen-Omni）同样需要与人类偏好或下游任务对齐，但它们的“学习方式”和LLM截然不同。LLM是自回归地逐个生成token，而扩散模型是在连续的潜在空间里一步步去噪，全模态模型则混合了多种架构。现有的RL训练框架（比如针对LLM的verl）根本处理不了这种复杂性。vLLM团队发布的VeRL-Omni，正是为了填补这个关键空白——它让强化学习这种强大的对齐方法，终于能用在非文本的、多模态的生成模型上。

拆解：它到底解决了哪些“老大难”问题？

你可以把VeRL-Omni理解为一个为多模态模型量身定制的“强化学习教练系统”。它解决了几个核心痛点：

异构流水线调度：训练一个多模态模型，一次“推理”（rollout）可能涉及文本编码器、扩散Transformer、VAE解码器等多个组件，像一条复杂的流水线。VeRL-Omni能智能调度这些异构组件，确保训练高效稳定。
复杂奖励计算：对齐需要“奖励模型”来打分。对于图像，奖励模型本身可能就是一个视觉语言模型（VLM），用来判断生成的图里文字对不对（OCR）、画面好不好。VeRL-Omni让这些昂贵的奖励计算能与模型训练并行，减少等待时间。
高效多模态生成：它集成了vLLM-Omni，专门为多模态生成提供高吞吐的异步服务，在保持生成质量的同时，大幅提升训练速度。

简单说，它把之前散乱、低效、难以复现的多模态模型对齐实验，变成了一个工程上可行、性能可期的标准流程。

趋势洞察：RL正在成为所有生成模型的“通用对齐语言”

这件事揭示了一个深层趋势：强化学习正从LLM的专属工具，演变为整个生成式AI领域的通用对齐框架。无论是生成文本、图像还是视频，核心需求都是一样的——让模型的输出更符合人类的复杂意图和偏好。VeRL-Omni的出现，意味着我们正在构建一套统一的基础设施，来应对所有模态的“价值对齐”问题。这可能会催生新一代更可控、更可靠的多模态AI应用，比如能精准理解指令的图像编辑工具、能确保内容安全的视频生成器等。

实用价值：对开发者意味着什么？

对于AI从业者，尤其是关注多模态的开发者，VeRL-Omni的价值非常直接：

降低门槛：你不再需要从头搭建一个极其复杂的RL训练系统。框架提供了从算法（如FlowGRPO、DPO）、模型（支持Qwen-Image、BAGEL等主流架构）到硬件（兼容NVIDIA和华为昇腾）的全栈方案和开箱即用的示例。
提升效率：官方数据显示，在图像生成任务上，通过异步奖励计算等技术，单步训练时间能缩短约14%。这意味着更快的实验迭代和更低的成本。
拓展可能性：它为探索更复杂的多模态对齐任务打开了大门。例如，你可以尝试用更精细的VLM作为裁判，来优化生成图像的构图、风格或事实准确性，而不仅仅是简单的OCR分数。

反常识/意外：一个容易被忽视的亮点

文章里一个不起眼但重要的细节是对华为昇腾NPU的支持。这通常被视为一个“兼容性”特性，但它背后有更大的意义：它表明多模态RL训练这样的前沿AI基础设施，正在主动拥抱硬件多样性。这对于推动国产AI芯片在复杂训练场景下的应用，以及降低全球开发者对单一硬件平台的依赖，具有长远价值。当大家的目光都聚焦在算法创新时，这种底层硬件的兼容性布局，可能才是决定技术能否广泛落地的关键。

原文地址: Announcing VeRL-Omni: Easy, Fast, and Stable RL Training for Diffusion and Omni-Modality Models

分析由 BitByAI 生成 · 阅读原文

原文来自 vLLM Blog · 由 BitByAI 自动解读