从“推理式”思维到“智能体式”思维

justinlin610
发布于 1天前
阅读 84

文章探讨了AI模型思维从“推理式思考”（侧重内部推理解答问题）到“智能体式思考”（强调与环境交互、行动并根据反馈持续更新计划）的演变。它分析了整合推理与指令模式的挑战，并指出智能体式思考是未来的发展方向，这需要更强的基础设施和环境设计。

过去两年重塑了我们评估模型的方式以及我们对它们的期望。OpenAI 的 o1 表明“**思考**”可以成为一种一流的能力，你可以为此进行训练并将其暴露给用户。DeepSeek-R1 证明了推理风格的后训练可以在原始实验室之外复制和扩展。OpenAI 将 o1 描述为通过强化学习训练的模型，旨在“先**思考**再回答”。DeepSeek 将 R1 定位为与 o1 竞争的开放推理模型。

那个阶段很重要。但 2025 年上半年主要关注的是推理**思考**：如何让模型花费更多的推理计算量，如何用更强的奖励来训练它们，以及如何展示或控制额外的推理努力。现在的问题是接下来会发生什么。我相信答案是 Agentic **思考**：为了行动而**思考**，同时与环境互动，并根据来自世界的反馈不断更新计划。

## o1 和 R1 的崛起实际教会了我们什么

第一波推理模型告诉我们，如果想在语言模型中扩展强化学习，我们需要确定性、稳定且可扩展的反馈信号。数学、代码、逻辑和其他可验证的领域变得至关重要，因为这些设置中的奖励远强于通用偏好监督。它们让强化学习优化的是**正确性**而非**合理性**。基础设施变得至关重要。

一旦模型被训练用于通过更长的轨迹进行推理，强化学习就不再是监督微调的轻量级附加项。它变成了一个系统问题。你需要大规模的 rollout，高吞吐量的验证，稳定的策略更新，以及高效的采样。推理模型的出现既是基础设施的故事，也是建模的故事。OpenAI 将 o1 描述为用强化学习训练的推理线路，而 DeepSeek R1 后来通过展示基于推理的强化学习需要多少专门的算法和基础设施工作来强化了这一方向。第一次重大转变：从扩展预训练到扩展推理的后训练。

## 真正的问题从来不只是“合并**思考**与 Instruct”

2025 年初，Qwen 团队中的许多人心中都有一个宏大的构想。理想的系统将统一**思考**和 Instruct 模式。它将支持可调节的推理努力，其精神类似于低/中/高推理设置。更好的是，它将从提示和上下文中自动推断出适当的推理量，以便模型可以决定何时立即回答，何时进行更长时间的**思考**，以及何时在一个真正困难的问题上花费更多的计算。

从概念上讲，这是正确的方向。Qwen3 是最明确的公开尝试之一。它引入了“混合**思考**模式”，在一个系列中支持**思考**和非**思考**行为，强调了可控的**思考**预算，并描述了一个四阶段的后训练流水线，该流水线在长 CoT 冷启动和推理强化学习之后明确包含了“**思考**模式融合”。

但合并说起来容易，做好却很难。困难的部分是数据。当人们谈论合并**思考**和 Instruct 时，他们通常首先想到的是模型侧的兼容性：一个检查点能否支持两种模式，一个聊天模板能否在它们之间切换，一个服务栈能否暴露正确的开关。更深层的问题是，这两种模式的数据分布和行为目标存在显著差异。

在试图平衡模型合并与提高后训练数据质量和多样性时，我们并非一切都做对了。在那个修订过程中，我们也密切关注了用户如何实际使用**思考**和 Instruct 模式。一个强大的 Instruct 模型通常会因为其直接性、简洁性、格式合规性以及在重复、大批量企业任务（如重写、标注、模板支持、结构化提取和操作性 QA）上的低延迟而获得奖励。一个强大的**思考**模型会因为在困难问题上花费更多 Token，保持连贯的中间结构，探索替代路径，并保留足够的内部计算以显著提高最终**正确性**而获得奖励。

这两种行为模式相互制约。如果合并的数据没有经过精心策划，结果通常是两方面都平庸：“**思考**”行为变得嘈杂、臃肿或不够果断，而“Instruct”行为变得不那么清晰、不可靠，并且比商业用户实际想要的更昂贵。

在实践中，分离仍然具有吸引力。2025 年后期，在 Qwen3 最初的混合框架之后，2507 系列发布了不同的 Instruct 和**思考**更新，包括单独的 30B 和 235B 变体。在商业部署中，大量客户仍然希望获得用于批量操作的高吞吐量、低成本、高度可控的 Instruct 行为。对于这些场景，合并显然没有带来好处。分离这些线路使得团队能够更清晰地专注于解决每种模式的数据和训练问题。

其他实验室选择了相反的路线。Anthropic 公开主张一种集成模型理念：Claude 3.7 Sonnet 被引入为一种混合推理模型，用户可以选择普通响应或扩展**思考**，并且 API 用户可以设置**思考**预算。Anthropic 明确表示他们相信推理应该是一种集成能力，而不是一个单独的模型。GLM-4.5 也公开将自己定位为一种混合推理模型，兼具**思考**和非**思考**模式，统一了推理、编码和 Agent 能力；DeepSeek 后来也朝着类似的方向发展，推出了 V3.1 的“**思考**与非**思考**”混合推理。

关键问题是合并是否**有机**。如果**思考**和 Instruct 仅仅共存于一个检查点内，但仍然像两个笨拙地缝合在一起的个性，那么产品体验仍然不自然。真正成功的合并需要平滑的推理努力谱系。模型应该能够表达多个级别的努力，并且理想情况下能够自适应地在它们之间进行选择。GPT 风格的努力控制指向这一点：一种对计算量的策略，而不是一个二元开关。

## 为什么 Anthropic 的方向是一种有益的**修正**

Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表述是**克制**的。他们强调了集成推理、用户控制的**思考**预算、真实世界任务、编码质量，以及后来在扩展**思考**期间使用工具的能力。Claude 3.7 被呈现为一种具有可控预算的混合推理模型；Claude 4 扩展了这一点，允许推理与工具使用交错进行，同时 Anthropic 强调编码、长期运行任务和 Agent 工作流是主要目标。

产生更长的推理轨迹并不能自动让模型变得更智能。在许多情况下，过度可见的推理表明分配薄弱。如果模型试图以同样冗长的方式推理所有事物，它可能未能优先排序，未能压缩，或未能采取行动。Anthropic 的轨迹提出了一种更**严谨**的观点：**思考**应该由目标工作负载来塑造。如果目标是编码，那么**思考**应该有助于代码库导航、规划、分解、错误恢复和工具编排。如果目标是 Agent 工作流，那么**思考**应该在长期范围内提高执行质量，而不是产生令人印象深刻的中间散文。

这种对目标效用的强调指向了更大的事物：我们正在从训练模型的时代走向训练 Agent 的时代。我们在 Qwen3 博客中明确指出：“我们正在从一个专注于训练模型的时代，过渡到一个以训练 Agent 为中心的时代”，并将未来的强化学习进展与用于长期推理的环境反馈联系起来。一个 Agent 是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修改策略并在长期内持续运作的系统。它由与世界的闭环互动来定义。

## “Agentic **思考**”究竟意味着什么

Agentic **思考**是一个不同的优化目标。推理**思考**通常通过最终答案之前的内部审议质量来判断：模型能否解决定理，编写证明，生成正确的代码，或通过基准测试。Agentic **思考**是关于模型能否在与环境互动的同时持续取得进展。

核心问题从“模型能否**思考**足够长的时间？”转变为“模型能否以一种能维持有效行动的方式进行**思考**？”Agentic **思考**必须处理纯粹的推理模型大多可以避免的几件事：

*   决定何时停止**思考**并采取行动
*   选择调用哪个工具以及按什么顺序
*   整合来自环境的嘈杂或部分观察
*   在失败后修改计划
*   在多次交互和多次工具调用中保持连贯性

Agentic **思考**是一种通过行动进行推理的模型。

## 为什么 Agentic 强化学习基础设施更难

一旦目标从解决基准问题转向解决交互任务，强化学习栈就会发生变化。经典推理强化学习所用的基础设施是不够的。在推理强化学习中，你通常可以将 rollout 视为相对独立的轨迹，并配备相对清晰的评估器。在 Agentic 强化学习中，策略嵌入在一个更大的线束中：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、内存系统和编排框架。环境不再是一个静态的验证器；它是训练系统的一部分。

这产生了一个新的系统要求：训练和推理必须更清晰地解耦。如果没有这种解耦，rollout 吞吐量就会崩溃。想象一个编码 Agent 必须针对实时测试线束执行生成的代码：推理侧会因等待执行反馈而停滞，训练侧会因缺少完成的轨迹而“饥饿”，整个流水线的运行远低于你从经典推理强化学习所期望的 GPU 利用率。增加工具延迟、部分可观察性和有状态环境会放大这些低效率。结果是，在达到你所期望的能力水平之前，实验就已经变得缓慢和痛苦。

环境本身也成为了一流的研究**产物**。在 SFT 时代，我们**痴迷**于数据多样性。在 Agent 时代，我们应该**痴迷**于环境质量：稳定性、真实性、覆盖范围、难度、状态多样性、反馈的丰富性、抗利用性以及 rollout 生成的可扩展性。环境构建已开始成为一个真正的创业类别，而不再是一个副项目。如果 Agent 被训练在类似生产的环境中运行，那么环境就是核心能力栈的一部分。

## 下一个前沿是更有**用**的**思考**

我预计 Agentic **思考**将成为主要的**思考**形式。我认为它最终可能会取代旧的静态独白式推理**思考**的很大一部分：那些过度冗长、孤立的内部轨迹，试图通过发出越来越多的文本来弥补缺乏交互的不足。即使在非常困难的数学或编码任务上，一个真正先进的系统也应该有权进行搜索、模拟、执行、检查、验证和修订。目标是**稳健**而**高效**地解决问题。

训练此类系统最严峻的挑战是奖励**作弊**（reward hacking）。一旦模型获得有意义的工具访问权限，奖励**作弊**就会变得更加危险。一个具有搜索功能的模型可能会在强化学习期间学会直接查找答案。一个编码 Agent 可能会利用存储库中的未来信息，滥用日志，或发现使任务失效的捷径。一个存在隐藏漏洞的环境可能让策略看起来超凡脱俗，而实际上却是在训练它**作弊**。这正是 Agent 时代比推理时代更加**微妙**的地方。更好的工具使模型更有用，但它们也扩大了**虚假优化**的攻击面。我们应该预期下一个严重的研究瓶颈将来自环境设计、评估器**鲁棒性**、反**作弊**协议以及策略与世界之间更**原则性**的接口。尽管如此，方向是明确的。工具辅助的**思考**比孤立的**思考**更有用，并且有更好的机会提高实际生产力。

Agentic **思考**也意味着**线束工程**。核心智能将越来越多地来自于多个 Agent 如何组织：一个规划和路由工作的协调器，像领域专家一样行动的专业 Agent，以及执行更狭窄任务的同时帮助控制上下文、避免污染并在不同推理级别之间保持分离的子 Agent。未来是从训练模型转向训练 Agent，再从训练 Agent 转向训练系统。

## 结论

推理浪潮的第一阶段确立了一件重要的事情：当反馈信号可靠且基础设施能够支持时，在语言模型之上进行的强化学习可以产生**质的**更强认知。

更深层次的转变是从推理**思考**到 Agentic **思考**：从长时间**思考**到为了行动而**思考**。训练的核心对象已经转变。它是模型加环境系统，或者更具体地说，是 Agent 及其周围的线束。这改变了最重要的研究**产物**：模型架构和训练数据固然重要，但环境设计、rollout 基础设施、评估器**鲁棒性**以及多个 Agent 之间协调的接口也同样重要。它改变了“好的**思考**”的含义：是在真实世界限制下维持行动最**有用**的轨迹，而不是最长或最明显的轨迹。

它还改变了竞争优势的来源。在推理时代，优势来自于更好的强化学习算法、更强的反馈信号和更可扩展的训练流水线。在 Agentic 时代，优势将来自于更好的环境、更紧密的训练-服务集成、更强大的**线束工程**，以及在模型决策和这些决策产生的后果之间闭合循环的能力。

>- 原文链接： [x.com/justinlin610/statu...](https://x.com/justinlin610/status/2037116325210829168)
>- 登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

过去两年重塑了我们评估模型的方式以及我们对它们的期望。OpenAI 的 o1 表明“思考”可以成为一种一流的能力，你可以为此进行训练并将其暴露给用户。DeepSeek-R1 证明了推理风格的后训练可以在原始实验室之外复制和扩展。OpenAI 将 o1 描述为通过强化学习训练的模型，旨在“先思考再回答”。DeepSeek 将 R1 定位为与 o1 竞争的开放推理模型。

那个阶段很重要。但 2025 年上半年主要关注的是推理思考：如何让模型花费更多的推理计算量，如何用更强的奖励来训练它们，以及如何展示或控制额外的推理努力。现在的问题是接下来会发生什么。我相信答案是 Agentic 思考：为了行动而思考，同时与环境互动，并根据来自世界的反馈不断更新计划。

o1 和 R1 的崛起实际教会了我们什么

第一波推理模型告诉我们，如果想在语言模型中扩展强化学习，我们需要确定性、稳定且可扩展的反馈信号。数学、代码、逻辑和其他可验证的领域变得至关重要，因为这些设置中的奖励远强于通用偏好监督。它们让强化学习优化的是正确性而非合理性。基础设施变得至关重要。

真正的问题从来不只是“合并思考与 Instruct”

2025 年初，Qwen 团队中的许多人心中都有一个宏大的构想。理想的系统将统一思考和 Instruct 模式。它将支持可调节的推理努力，其精神类似于低/中/高推理设置。更好的是，它将从提示和上下文中自动推断出适当的推理量，以便模型可以决定何时立即回答，何时进行更长时间的思考，以及何时在一个真正困难的问题上花费更多的计算。

从概念上讲，这是正确的方向。Qwen3 是最明确的公开尝试之一。它引入了“混合思考模式”，在一个系列中支持思考和非思考行为，强调了可控的思考预算，并描述了一个四阶段的后训练流水线，该流水线在长 CoT 冷启动和推理强化学习之后明确包含了“思考模式融合”。

但合并说起来容易，做好却很难。困难的部分是数据。当人们谈论合并思考和 Instruct 时，他们通常首先想到的是模型侧的兼容性：一个检查点能否支持两种模式，一个聊天模板能否在它们之间切换，一个服务栈能否暴露正确的开关。更深层的问题是，这两种模式的数据分布和行为目标存在显著差异。

在试图平衡模型合并与提高后训练数据质量和多样性时，我们并非一切都做对了。在那个修订过程中，我们也密切关注了用户如何实际使用思考和 Instruct 模式。一个强大的 Instruct 模型通常会因为其直接性、简洁性、格式合规性以及在重复、大批量企业任务（如重写、标注、模板支持、结构化提取和操作性 QA）上的低延迟而获得奖励。一个强大的思考模型会因为在困难问题上花费更多 Token，保持连贯的中间结构，探索替代路径，并保留足够的内部计算以显著提高最终正确性而获得奖励。

这两种行为模式相互制约。如果合并的数据没有经过精心策划，结果通常是两方面都平庸：“思考”行为变得嘈杂、臃肿或不够果断，而“Instruct”行为变得不那么清晰、不可靠，并且比商业用户实际想要的更昂贵。

在实践中，分离仍然具有吸引力。2025 年后期，在 Qwen3 最初的混合框架之后，2507 系列发布了不同的 Instruct 和思考更新，包括单独的 30B 和 235B 变体。在商业部署中，大量客户仍然希望获得用于批量操作的高吞吐量、低成本、高度可控的 Instruct 行为。对于这些场景，合并显然没有带来好处。分离这些线路使得团队能够更清晰地专注于解决每种模式的数据和训练问题。

其他实验室选择了相反的路线。Anthropic 公开主张一种集成模型理念：Claude 3.7 Sonnet 被引入为一种混合推理模型，用户可以选择普通响应或扩展思考，并且 API 用户可以设置思考预算。Anthropic 明确表示他们相信推理应该是一种集成能力，而不是一个单独的模型。GLM-4.5 也公开将自己定位为一种混合推理模型，兼具思考和非思考模式，统一了推理、编码和 Agent 能力；DeepSeek 后来也朝着类似的方向发展，推出了 V3.1 的“思考与非思考”混合推理。

关键问题是合并是否有机。如果思考和 Instruct 仅仅共存于一个检查点内，但仍然像两个笨拙地缝合在一起的个性，那么产品体验仍然不自然。真正成功的合并需要平滑的推理努力谱系。模型应该能够表达多个级别的努力，并且理想情况下能够自适应地在它们之间进行选择。GPT 风格的努力控制指向这一点：一种对计算量的策略，而不是一个二元开关。

为什么 Anthropic 的方向是一种有益的修正

Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表述是克制的。他们强调了集成推理、用户控制的思考预算、真实世界任务、编码质量，以及后来在扩展思考期间使用工具的能力。Claude 3.7 被呈现为一种具有可控预算的混合推理模型；Claude 4 扩展了这一点，允许推理与工具使用交错进行，同时 Anthropic 强调编码、长期运行任务和 Agent 工作流是主要目标。

产生更长的推理轨迹并不能自动让模型变得更智能。在许多情况下，过度可见的推理表明分配薄弱。如果模型试图以同样冗长的方式推理所有事物，它可能未能优先排序，未能压缩，或未能采取行动。Anthropic 的轨迹提出了一种更严谨的观点：思考应该由目标工作负载来塑造。如果目标是编码，那么思考应该有助于代码库导航、规划、分解、错误恢复和工具编排。如果目标是 Agent 工作流，那么思考应该在长期范围内提高执行质量，而不是产生令人印象深刻的中间散文。

“Agentic 思考”究竟意味着什么

Agentic 思考是一个不同的优化目标。推理思考通常通过最终答案之前的内部审议质量来判断：模型能否解决定理，编写证明，生成正确的代码，或通过基准测试。Agentic 思考是关于模型能否在与环境互动的同时持续取得进展。

核心问题从“模型能否思考足够长的时间？”转变为“模型能否以一种能维持有效行动的方式进行思考？”Agentic 思考必须处理纯粹的推理模型大多可以避免的几件事：

决定何时停止思考并采取行动
选择调用哪个工具以及按什么顺序
整合来自环境的嘈杂或部分观察
在失败后修改计划
在多次交互和多次工具调用中保持连贯性

Agentic 思考是一种通过行动进行推理的模型。

为什么 Agentic 强化学习基础设施更难

环境本身也成为了一流的研究产物。在 SFT 时代，我们痴迷于数据多样性。在 Agent 时代，我们应该痴迷于环境质量：稳定性、真实性、覆盖范围、难度、状态多样性、反馈的丰富性、抗利用性以及 rollout 生成的可扩展性。环境构建已开始成为一个真正的创业类别，而不再是一个副项目。如果 Agent 被训练在类似生产的环境中运行，那么环境就是核心能力栈的一部分。

下一个前沿是更有用的思考

我预计 Agentic 思考将成为主要的思考形式。我认为它最终可能会取代旧的静态独白式推理思考的很大一部分：那些过度冗长、孤立的内部轨迹，试图通过发出越来越多的文本来弥补缺乏交互的不足。即使在非常困难的数学或编码任务上，一个真正先进的系统也应该有权进行搜索、模拟、执行、检查、验证和修订。目标是稳健而高效地解决问题。

训练此类系统最严峻的挑战是奖励作弊（reward hacking）。一旦模型获得有意义的工具访问权限，奖励作弊就会变得更加危险。一个具有搜索功能的模型可能会在强化学习期间学会直接查找答案。一个编码 Agent 可能会利用存储库中的未来信息，滥用日志，或发现使任务失效的捷径。一个存在隐藏漏洞的环境可能让策略看起来超凡脱俗，而实际上却是在训练它作弊。这正是 Agent 时代比推理时代更加微妙的地方。更好的工具使模型更有用，但它们也扩大了虚假优化的攻击面。我们应该预期下一个严重的研究瓶颈将来自环境设计、评估器鲁棒性、反作弊协议以及策略与世界之间更原则性的接口。尽管如此，方向是明确的。工具辅助的思考比孤立的思考更有用，并且有更好的机会提高实际生产力。

Agentic 思考也意味着线束工程。核心智能将越来越多地来自于多个 Agent 如何组织：一个规划和路由工作的协调器，像领域专家一样行动的专业 Agent，以及执行更狭窄任务的同时帮助控制上下文、避免污染并在不同推理级别之间保持分离的子 Agent。未来是从训练模型转向训练 Agent，再从训练 Agent 转向训练系统。

结论

推理浪潮的第一阶段确立了一件重要的事情：当反馈信号可靠且基础设施能够支持时，在语言模型之上进行的强化学习可以产生质的更强认知。

更深层次的转变是从推理思考到 Agentic 思考：从长时间思考到为了行动而思考。训练的核心对象已经转变。它是模型加环境系统，或者更具体地说，是 Agent 及其周围的线束。这改变了最重要的研究产物：模型架构和训练数据固然重要，但环境设计、rollout 基础设施、评估器鲁棒性以及多个 Agent 之间协调的接口也同样重要。它改变了“好的思考”的含义：是在真实世界限制下维持行动最有用的轨迹，而不是最长或最明显的轨迹。

它还改变了竞争优势的来源。在推理时代，优势来自于更好的强化学习算法、更强的反馈信号和更可扩展的训练流水线。在 Agentic 时代，优势将来自于更好的环境、更紧密的训练-服务集成、更强大的线束工程，以及在模型决策和这些决策产生的后果之间闭合循环的能力。

原文链接： x.com/justinlin610/statu...

登链社区 AI 助手，为大家转译优秀英文文章，如有翻译不通的地方，还请包涵～

本文参与登链社区写作激励计划，好文好收益，欢迎正在阅读的你也加入。