YUAN'Blog |

OpenAI姚顺雨经典论文:Tree of Thoughts Deliberate Problem Solving

Date: October 24, 2025 | Estimated Reading Time: 5 min | Author: YUAN

1.jpg

【OpenAI姚顺雨经典论文】Tree of Thoughts: DeliberateProblemSolvingwithLLM

我们都知道,现在的大型语言模型(LLM)很强,但它们在解决问题时,本质上还是一个“直肠子”——从左到右、一个Token一个Token地生成答案。这就像人类的“系统1”快思考,凭直觉、联想,速度快,但没法“深思熟虑”。

这种模式在遇到需要探索、策略规划、或者“走一步看三步”的复杂任务时,就特别容易翻车。比如,你让它玩24点,它可能第一步算错了,但它没有“回头路”,只能硬着头皮错下去,最后给出一个“无解”的答案。

为了解决这个“一本正经胡说八道”的难题,普林斯顿大学和谷歌DeepMind的研究者们联手,提出了一个全新的推理框架—— ** “思维树”(Tree of Thoughts, ToT) ** 。

这篇论文的核心,就是给LLM装上了一个“系统2”的慢思考模式,T让它不再是一条路走到黑,而是能像人类一样, 探索多种可能性、评估不同路径、甚至在发现走不通时“回溯”和“剪枝”

这篇论文就是:
《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》

2.jpg

[ Figure 1 :ToT 与 CoT 等方法的对比示意图]


论文速览:ToT究竟是做什么的?

简单来说,ToT不是一个新模型,而是一种 全新的、用于LLM推理的框架

它把传统LLM的“思维链”(Chain of Thought, CoT)从一条“链条”扩展成了一棵“树”。

2.1 传统方法(CoT)的困境

2.2 ToT的核心思想:探索+评估+回溯

ToT框架的灵感来源于人类的“系统2”思考和经典的人工智能搜索算法。它允许LLM以一种更系统化的方式解决问题:

  1. 1. 探索(Exploration) :面对一个问题,ToT不再只生成一个“下一步”,而是同时生成 多个 可能的“下一步”(即“思维”或“thoughts”),形成树的分支。
  2. 2. 评估(Deliberate Evaluation) :ToT会停下来,让LLM自己 评估 这些分支(中间步骤)的优劣。比如,“这条路看起来很有前途”或“这个中间结果离24差太远了,估计不行”。
  3. 3. 决策(Lookahead & Backtracking) :基于评估,ToT可以决定下一步的行动:是继续深入最有希望的分支( 前瞻 ),还是在发现此路不通时 回溯 到上一步,去探索其他分支。

核心技术深度解析:ToT框架如何实现“深思熟虑”?

作者提出,要实现ToT框架,你需要回答四个关键问题:

1. 如何分解问题(Thought Decomposition)?
你必须先把一个大问题,拆解成一步一步的“思维”单元。

2. 如何生成思维(Thought Generator)?
给定当前的“思维状态”(比如在24点游戏中还剩 4, 6, 9 ),如何产生下一步的多个可能性?

3. 如何评估状态(State Evaluator)?
这是ToT的精髓所在! ToT框架最大的创新之一,就是 利用LLM自己来充当“评估器” ,为搜索算法提供启发式(heuristic)信息。

4. 使用什么搜索算法(Search Algorithm)?
一旦有了生成和评估能力,你就可以套用经典的搜索算法来探索这棵树:


实验验证:效果究竟如何?

为了证明ToT的强大,研究者们专门设计了三个传统CoT方法难以解决的、需要规划和搜索的任务。

实验一:24点游戏(Game of 24)

[ Figure 2 :Game of 24 的 ToT 流程(Propose 和 Value 示例)]

[在此处插入 PDF 原文第 6 页的 Figure 3 :Game of 24 的实验结果图表((a) 成功率 vs 节点 (b) 失败步骤分析)]

为什么差距这么大?因为CoT经常在第一步就错了,然后一路错到底。而ToT会评估第一步的多个选项,及时剪掉那些“看起来就不可能”的路径。

实验二:创意写作(Creative Writing)

4.jpg

[ Figure 4 :创意写作的 ToT 流程(生成5个Plan并投票)]

[ Figure 5 :创意写作的实验结果图表((a) GPT-4 连贯性得分 (b) 人类偏好对比)]

实验三:迷你填字游戏(Mini Crosswords)

[ Figure 6 :迷你填字游戏的 ToT 流程(DFS、状态评估和剪枝)]


智使解读:洞察与展望

5.1 论文亮点与贡献

  1. 1. 从“系统1”到“系统2”的跨越 :这是ToT最大的贡献。它为LLM提供了一个从“直觉式”快思考转向“分析式”慢思考的框架,让LLM真正具备了“深思熟虑”的能力。
  2. 2. LLM即评估器(LLM as Evaluator) :这个思路非常巧妙。我们不需要额外训练一个复杂的奖励模型或评估器,LLM本身就具备强大的常识和推理能力,足以充当这个“启发式向导”。
  3. 3. 框架的通用性与灵活性 :ToT是一个高度模块化的框架。你可以根据不同的任务,自由组合思想分解方式、生成策略、评估方法和搜索算法(BFS, DFS,甚至未来可以接入MCTS蒙特卡洛树搜索)。

5.2 潜在应用场景

ToT框架的潜力远不止于此。任何需要复杂规划、探索和权衡的Agent任务都是它的用武之地:

5.3 局限性与未来研究方向

当然,ToT也不是银弹。它最显著的缺点就是 计算成本 。相比CoT只跑一次,ToT需要进行大量的生成和评估调用,API成本可能会高出5-100倍。

不过,正如作者所言,这是为了追求更高性能所必须的开销。未来,随着模型本身推理能力的提升(更好的评估器)和开源模型的发展,这个成本问题有望得到缓解。


结论

总而言之,ToT是一篇具有开创性意义的论文。它不再满足于LLM“token接龙”式的回答,而是真正开始探索如何构建一个能够“思考”和“规划”的智能Agent。

这篇论文无疑为我们揭示了AI Agent未来发展的一个重要方向,它的思路值得我们反复品味。

大神们已经将论文和代码全部开源,复现跑起来!

读完这篇硬核解读,你有什么新的启发吗?你认为“思维树”是通向更强AI Agent的必经之路吗?

以上就是今天分享的全部内容。如果觉得有所收获,记得一键三连,点个 关注、分享、喜欢 , 欢迎将文章分享给更多有需要的同学

我创建了一个高质量的 「论文研读社群」,专注于大模型、AI Agent等方向。在这里,我们 每日打卡 (精读并分享最新的Agent动态和顶会论文), 定期讨论 (围绕关键技术与研究思路进行深入交流), 资源共享 (共享高质量的学习资料与科研工具)。后台私信或下方扫码” Agent ”拉你入群。

7.jpg