摘录｜林俊旸大佬的From reasoning thinking to agentic thinking

林俊旸大佬关于reasoning thinking 和 agentic thinking的博文为很多未来研究指明了方向——下一个阶段往哪走。现阅读后摘录一些关键的观点。

原文：https://x.com/JustinLin610/status/2037116325210829168

o1和R1的启示
- 将RL Scaling到LLM需要足够确定、稳定、可扩展的feedback信号——可验证领域目前效果很好。
- Reasoning Model的崛起不仅在于算法和建模，RL的Infra更是关键。
- From scaling pretraining to scaling post-training for reasoning.
Thinking和Instruct合并并非关键
- 落地思考合并型模型最大的难点在于数据，thinking和instruct是两套数据分布，两种行为画像。instruct应该是直接、简洁、格式服从、延迟低，适配企业很多重复性高、吞吐量大的工作。Thinking模型反而应该是探索多种路径，思考后给出正确答案的数据。融合数据的质量决定了结果。
- 真正成功的融合需要模形成一条平滑的推理强度连续谱，让“投入多少预算”成为一个Policy，而不是一个开关。
Anthropic的训练方向
- Anthropic强调：用户可控的thinking budget、real world task、长时运行任务。
- 更长推理轨迹不会让模型更聪明，反而可能是模型没学会When to Expand/Compact/Stop。思考应该围绕目标工作负载塑造，而不是一大段文字。
  - 如果Coding任务，那么思考内容就应该是更好做代码导航、任务规划、问题分解、错误处理等。
  - 如果是Agent工作流，目标就在于提升长时间任务的执行质量。
- 未来RL持续进步，越来越依赖于面向长程推理的环境反馈。
Agentic Thinking
- 关注点在于与环境持续交互过程中，模型能否持续不断推动任务前进。“以一种足以持续支撑有效行动的方式去思考”
- Agentic thinking的本质是通过行动完成推理——什么时候Stop而去take Action；调用哪一个Tool，调用顺序是什么；如何整合来自Environment的噪声；失败后如何修改计划；如何在多轮交互中保持一致性。

Agentic RL Infra——环境变成一等研究对象

reasoning RL：rollout 常常可以被看作相对封闭、评估器也相对干净的轨迹。
agentic RL：policy被嵌入更大的执行框架中国呢，包括各种工具、浏览器、模拟器、记忆等。环境不再是静态Verfier，而是训练系统本身一部分。

这会立刻带来新的系统要求：训练与推理必须被更彻底地解耦。否则rollout 的吞吐量会迅速崩塌，整条流水线的 GPU 利用率会远远低于传统 reasoning RL 的预期水平。最终的结果是，在能力还没真正达到目标之前，实验速度就已经先慢下来，研发过程也会变得越来越痛苦。

环境本身也开始从辅助配角变成一等研究对象。

SFT 时代：关注数据多样性。
Agent时代：关注环境质量——稳定性、真实性、难度、覆盖是否充分、状态空间丰富性、反馈多样性、抗利用能力、可否Scaling。

环境构建本身，已经不再只是边角料式的工程工作，而正在演变为真正的核心能力。对于面向生产环境训练的智能体来说，环境就是能力栈的一部分。

从训练模型走向训练系统

Reward Hacking的挑战：更强的工具当然会让模型更有用，但也会同步扩大伪优化与投机取巧的攻击面。下一阶段真正严肃的研究瓶颈，很可能会来自环境设计、评估器鲁棒性、反作弊协议，以及策略与真实世界之间更原则化的接口设计。

Harness engineering 的重要性会不断上升——未来系统的核心智能，将越来越多地来自多智能体的组织方式：一个负责编排、规划和任务路由的 orchestrator，一组像领域专家一样工作的 specialized agents，以及若干执行更窄任务的 sub-agents；后者还会承担控制上下文、避免污染、隔离不同推理层级等职责。未来的演进路径，很可能就是从训练模型，走向训练智能体，再进一步走向训练系统。