Notion Blog By Yancheng He, Weixun Wang, and Xiaoyang Li | Project Leader: Weixun Wang | February 11, 2026
English Version: The Bitter Lesson Behind Building Agentic RL
****🚀ROLL TEAM
<aside>
📄 技术报告: https://arxiv.org/pdf/2512.24873
🧠 模型: https://huggingface.co/FutureLivingLab/iFlow-ROME
🧩 框架:
📊 Benchmarks: https://github.com/alibaba/terminal-bench-pro
</aside>
<aside> 📌
如果你觉得这两张梗图很有趣,那一定要点开下面的 折叠栏 看看。我觉得你会会心一笑。


<aside>
</aside>
RLVR 在数学、代码与通用推理任务上带来了显著提升。但在其成功背后,也隐藏着一种结构上的简化:传统的 RLVR 更像是一种 in-context bandit 问题——模型生成一次完整回答,获得奖励,然后更新参数。过程中不存在多步交互式决策与环境状态转移。
Agentic RL 则更接近多步交互式 MDP 的设定:模型需要采取行动、观察环境反馈,并在稀疏且延迟的奖励信号下,对长程轨迹进行优化。这意味着模型不再只是“给出一个答案”,而是要在不断变化的环境中持续决策和修正行为,并为最终结果负责。这也让应用场景从封闭、可验证的任务,扩展到诸如旅游规划、复杂数据分析等更为复杂的真实任务。
这种转变也对基础设施和算法设计提出了更高的要求:包括端到端异步的训练管线、更稳定的长时序信用分配机制、与真实环境的深度集成,以及能够支撑持续扩展的工程基础设施。本文记录了我们在这一方向上的探索经验。
我们将首先介绍我们如何构建的训练环境,随后分享我们如何筛选 RL 训练实例,最后讨论我们在训练 Agentic RL过程中积累的一系列实践经验。对算法部分更感兴趣的读者,可以直接跳转至训练部分。
<aside>
Why this matters ?
Agentic RL is not just about algorithms — it requires co-designing environments, infrastructure, and algorithms.
</aside>