近期,阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架——Async 架构(Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),「3A」彼此间并非孤立的技术堆砌,而是深度耦合,致力于共同推动「强化学习用于大语言模型(RL4LLM)」迈向高效、精细与可解释的新范式。
具体来看,ROLL Flash 以解耦为核心,通过「细粒度并行」与「采样 - 训练解耦」两大原则,将生成、环境交互、奖励计算与模型训练彻底流水线化,实现全链路异步执行,显著提升 GPU 利用率,同时通过「异步比」机制保障训练稳定性,集成主流 Off-policy 算法等,使得异步训练效果能与同步训练相媲美。
算法架构层面,AsyPPO 首次系统论证了评论家的参数规模与其价值估计能力并无必然关联,仅需两个小型评论家,即可在显著降低计算资源消耗的同时,提升推理性能与训练鲁棒性。
更进一步,团队创新性地对 Attention 进行重新定义 —— 它不仅是语言模型前向计算中的中间产物,更是揭示模型推理过程内在逻辑的「结构化蓝图」,并基于此设计了一种推理结构感知的动态奖励分配机制,使强化学习的优化目标与模型内生的推理节奏精准对齐,显著提升了训练效率与策略可解释性。