The Bitter Lesson Behind Building Agentic RL in Terminal Environments (中文版)

Notion Blog By Yancheng He, Weixun Wang, and Xiaoyang Li | Project Leader: Weixun Wang | February 11, 2026

English Version: The Bitter Lesson Behind Building Agentic RL

****🚀ROLL TEAM

<aside>

📄 技术报告: https://arxiv.org/pdf/2512.24873

🧠 模型: https://huggingface.co/FutureLivingLab/iFlow-ROME

🧩 框架:

RL训练框架: https://github.com/alibaba/ROLL
沙盒环境管理: https://github.com/alibaba/ROCK
Agent框架 https://github.com/iflow-ai/iflow-cli

📊 Benchmarks: https://github.com/alibaba/terminal-bench-pro

</aside>

<aside> 📌

如果你觉得这两张梗图很有趣，那一定要点开下面的折叠栏看看。我觉得你会会心一笑。

两个 RLers 的故事 </aside>

<aside>

</aside>

RLVR 在数学、代码与通用推理任务上带来了显著提升。但在其成功背后，也隐藏着一种结构上的简化：传统的 RLVR 更像是一种 in-context bandit 问题——模型生成一次完整回答，获得奖励，然后更新参数。过程中不存在多步交互式决策与环境状态转移。

Agentic RL 则更接近多步交互式 MDP 的设定：模型需要采取行动、观察环境反馈，并在稀疏且延迟的奖励信号下，对长程轨迹进行优化。这意味着模型不再只是“给出一个答案”，而是要在不断变化的环境中持续决策和修正行为，并为最终结果负责。这也让应用场景从封闭、可验证的任务，扩展到诸如旅游规划、复杂数据分析等更为复杂的真实任务。

这种转变也对基础设施和算法设计提出了更高的要求：包括端到端异步的训练管线、更稳定的长时序信用分配机制、与真实环境的深度集成，以及能够支撑持续扩展的工程基础设施。本文记录了我们在这一方向上的探索经验。

我们将首先介绍我们如何构建的训练环境，随后分享我们如何筛选 RL 训练实例，最后讨论我们在训练 Agentic RL过程中积累的一系列实践经验。对算法部分更感兴趣的读者，可以直接跳转至训练部分。

<aside>

Why this matters ?

Agentic RL is not just about algorithms — it requires co-designing environments, infrastructure, and algorithms.

</aside>