Notion Blog By Yancheng He, Weixun Wang, and Xiaoyang Li | Project Leader: Weixun Wang | February 11, 2026

English Version: The Bitter Lesson Behind Building Agentic RL

****🚀ROLL TEAM

<aside>

📄 技术报告: https://arxiv.org/pdf/2512.24873

🧠 模型: https://huggingface.co/FutureLivingLab/iFlow-ROME

🧩 框架:

📊 Benchmarks: https://github.com/alibaba/terminal-bench-pro

</aside>

<aside> 📌

如果你觉得这两张梗图很有趣,那一定要点开下面的 折叠栏 看看。我觉得你会会心一笑。

A5000C3C-44D3-4E3E-B11E-1BED9401A37F.png

AA8A390B-8412-4B1E-AA0E-1A496278EFBD.jpeg

<aside>

</aside>

RLVR 在数学、代码与通用推理任务上带来了显著提升。但在其成功背后,也隐藏着一种结构上的简化:传统的 RLVR 更像是一种 in-context bandit 问题——模型生成一次完整回答,获得奖励,然后更新参数。过程中不存在多步交互式决策与环境状态转移。

Agentic RL 则更接近多步交互式 MDP 的设定:模型需要采取行动观察环境反馈,并在稀疏且延迟的奖励信号下,对长程轨迹进行优化。这意味着模型不再只是“给出一个答案”,而是要在不断变化的环境中持续决策和修正行为,并为最终结果负责。这也让应用场景从封闭、可验证的任务,扩展到诸如旅游规划、复杂数据分析等更为复杂的真实任务。

这种转变也对基础设施和算法设计提出了更高的要求:包括端到端异步的训练管线、更稳定的长时序信用分配机制、与真实环境的深度集成,以及能够支撑持续扩展的工程基础设施。本文记录了我们在这一方向上的探索经验。

我们将首先介绍我们如何构建的训练环境,随后分享我们如何筛选 RL 训练实例,最后讨论我们在训练 Agentic RL过程中积累的一系列实践经验。对算法部分更感兴趣的读者,可以直接跳转至训练部分

<aside>

Why this matters ?

Agentic RL is not just about algorithms — it requires co-designing environments, infrastructure, and algorithms.

</aside>