林俊旸大佬关于reasoning thinking 和 agentic thinking的博文为很多未来研究指明了方向——下一个阶段往哪走。现阅读后摘录一些关键的观点。

原文:https://x.com/JustinLin610/status/2037116325210829168

  • o1和R1的启示

    • 将RL Scaling到LLM需要足够确定、稳定、可扩展的feedback信号——可验证领域目前效果很好。
    • Reasoning Model的崛起不仅在于算法和建模,RL的Infra更是关键。
    • From scaling pretraining to scaling post-training for reasoning.
  • Thinking和Instruct合并并非关键

    • 落地思考合并型模型最大的难点在于数据,thinking和instruct是两套数据分布,两种行为画像。instruct应该是直接、简洁、格式服从、延迟低,适配企业很多重复性高、吞吐量大的工作。Thinking模型反而应该是探索多种路径,思考后给出正确答案的数据。融合数据的质量决定了结果。
    • 真正成功的融合需要模形成一条平滑的推理强度连续谱,让“投入多少预算”成为一个Policy,而不是一个开关。
  • Anthropic的训练方向

    • Anthropic强调:用户可控的thinking budget、real world task、长时运行任务。
    • 更长推理轨迹不会让模型更聪明,反而可能是模型没学会When to Expand/Compact/Stop。思考应该围绕目标工作负载塑造,而不是一大段文字。
      • 如果Coding任务,那么思考内容就应该是更好做代码导航、任务规划、问题分解、错误处理等。
      • 如果是Agent工作流,目标就在于提升长时间任务的执行质量。
    • 未来RL持续进步,越来越依赖于面向长程推理的环境反馈
  • Agentic Thinking

    • 关注点在于与环境持续交互过程中,模型能否持续不断推动任务前进。“以一种足以持续支撑有效行动的方式去思考”
    • Agentic thinking的本质是通过行动完成推理——什么时候Stop而去take Action;调用哪一个Tool,调用顺序是什么;如何整合来自Environment的噪声;失败后如何修改计划;如何在多轮交互中保持一致性。

Agentic RL Infra——环境变成一等研究对象

  • reasoning RL:rollout 常常可以被看作相对封闭、评估器也相对干净的轨迹。
  • agentic RL:policy被嵌入更大的执行框架中国呢,包括各种工具、浏览器、模拟器、记忆等。环境不再是静态Verfier,而是训练系统本身一部分。

这会立刻带来新的系统要求:训练与推理必须被更彻底地解耦。否则rollout 的吞吐量会迅速崩塌,整条流水线的 GPU 利用率会远远低于传统 reasoning RL 的预期水平。最终的结果是,在能力还没真正达到目标之前,实验速度就已经先慢下来,研发过程也会变得越来越痛苦。

环境本身也开始从辅助配角变成一等研究对象

  • SFT 时代:关注数据多样性。
  • Agent时代:关注环境质量——稳定性、真实性、难度、覆盖是否充分、状态空间丰富性、反馈多样性、抗利用能力、可否Scaling。

环境构建本身,已经不再只是边角料式的工程工作,而正在演变为真正的核心能力。对于面向生产环境训练的智能体来说,环境就是能力栈的一部分。

从训练模型走向训练系统

Reward Hacking的挑战:更强的工具当然会让模型更有用,但也会同步扩大伪优化与投机取巧的攻击面。下一阶段真正严肃的研究瓶颈,很可能会来自环境设计、评估器鲁棒性、反作弊协议,以及策略与真实世界之间更原则化的接口设计。

Harness engineering 的重要性会不断上升——未来系统的核心智能,将越来越多地来自多智能体的组织方式:一个负责编排、规划和任务路由的 orchestrator,一组像领域专家一样工作的 specialized agents,以及若干执行更窄任务的 sub-agents;后者还会承担控制上下文、避免污染、隔离不同推理层级等职责。未来的演进路径,很可能就是从训练模型,走向训练智能体,再进一步走向训练系统