用 STORM 方法做一次真正的深度调研

很多人使用 AI 的方式，其实还停留在“搜索框时代”。

输入一个问题，等待一个答案。如果答案看起来流畅，就觉得它“很聪明”；如果答案有点空，就换个模型再问一遍。

但这并没有真正发挥大模型的价值。

最近 Nav Toor 在 X 上分享了一套基于 Stanford STORM 思路的 Claude 调研方法，核心不是让 AI “更会回答”，而是让 AI 像研究者一样拆解问题：从多个立场提问，暴露冲突，综合证据，再进行自我审查。(X (formerly Twitter))

STORM 到底是什么？

STORM 是 Stanford OVAL 提出的一个知识整理与长文写作系统，全称是 Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking，大意是：通过检索和多视角提问来综合主题大纲。它的目标不是简单生成一篇文章，而是在写作之前先完成“研究”和“搭框架”的过程。(ACL Anthology)

它背后的思想很朴素：

好的问题，往往不是从一个角度问出来的。真正的洞察，通常藏在不同视角的冲突里。

所以 STORM 不急着输出结论，而是先让模型模拟不同角色：实践者、学者、怀疑者、经济学人、历史学家。每个角色都带着自己的问题意识去看同一个主题。

这一步非常关键。因为普通提问容易得到“互联网平均答案”，而多视角提问会逼迫模型暴露问题的复杂性。

一套可复用的 AI 深度调研流程

这套方法可以拆成四步。

第一步：多视角扫描

不要直接问：

帮我分析一下 X。

而是让 AI 从多个角色出发：

请从实践者、学术研究者、怀疑论者、经济学人、历史观察者五个角度分析这个问题。每个角度都要说明：它最关心什么、它掌握什么证据、它可能看到哪些其他角度忽略的事实。

这样做的好处是，模型不会只顺着一个方向讲故事。

实践者会提醒你现实操作里的摩擦；学者会要求证据和同行评议；怀疑者会专门找漏洞；经济学人会追问利益结构；历史学家会寻找周期和先例。

一个问题被五种视角同时照亮后，信息密度会明显提高。

第二步：画出矛盾地图

多视角分析之后，不要马上总结。下一步应该让 AI 找冲突。

你可以继续问：

上面这些视角之间，哪些观点是直接矛盾的？哪些证据最强？哪些证据最弱？所有视角都承认的共识是什么？有没有所有人都忽略的盲区？

这一步的价值在于：它把“看起来都对”的观点放到同一张桌子上比较。

很多 AI 生成内容的问题，不是没有信息，而是没有冲突。它会把各种材料平铺出来，但不告诉你哪些观点互相打架、哪些论点其实站不住。

而研究的关键，恰恰是识别冲突。

第三步：综合成研究简报

当视角和冲突都清楚之后，再让 AI 输出正式简报。

可以要求它包含：

用一段话讲清楚核心结论
按可信度排序列出关键发现
说明每个发现由哪些视角支持、又被哪些视角质疑
找出一个隐藏关联
给出面向具体角色的行动建议
提出一个最值得继续研究的前沿问题

这一步很适合用于写文章、做竞品分析、研究新技术方向、准备面试、判断商业机会。

因为它输出的不是“资料堆砌”，而是一份有结构、有冲突、有行动含义的研究结果。

第四步：让 AI 自我评审

最后一步很多人会忽略：让 AI 审查自己的答案。

你可以问：

请对刚才的研究简报做一次严格评审。哪些结论置信度最高？哪些最弱？是否存在偏见？是否缺少关键视角？如果由一位严苛的教授审阅，他会要求你修改哪里？

这一步不是形式主义。

大模型最大的问题之一，是它很容易把“讲得顺”包装成“讲得对”。自我评审的作用，就是强制它把结论拆开，标记不确定性，暴露薄弱环节。

为什么这比普通 Prompt 更有效？

普通 Prompt 的逻辑是：

我问一个问题，你给一个答案。

STORM 式 Prompt 的逻辑是：

我先让你从多个角度提出问题，再让你比较冲突，最后才综合答案。

这两者差别很大。

前者像搜索。后者像研究。

搜索追求速度，研究追求结构。搜索容易得到结论，研究会先暴露不确定性。搜索把 AI 当信息压缩器，研究把 AI 当思考协作者。

Stanford 的 STORM 论文也强调了预写作阶段的重要性：在正式写作前，系统需要先发现不同视角、模拟带有不同立场的提问，并基于可信来源整理信息和大纲。(ACL Anthology)

适合用在哪些场景？

这套方法特别适合复杂问题，比如：

调研一个新技术方向
分析一个产品机会
判断一个行业趋势
写一篇深度博客
准备面试或分享
做投资、职业、创业方向判断
分析一个争议性观点

它不太适合问简单事实，比如“某个命令怎么写”“某个概念是什么意思”。但只要问题涉及多方利益、历史背景、证据强弱、行动决策，这套方法就很有用。

但也别神化它

STORM 不是让 AI 自动变成博士。它只是把研究流程结构化了。

你仍然需要注意三件事：

第一，AI 可能引用不可靠来源。第二，它可能把无关事实强行关联。第三，它可能继承检索结果里的偏见。

STORM 论文中也提到，生成长文仍然会遇到来源偏差转移、无关事实过度关联等挑战。(arXiv)

所以更准确的说法是：

STORM 不是替你完成判断，而是帮你搭建一个更好的判断框架。

一个可直接复制的通用模板

你可以把下面这段保存下来，以后调研复杂问题时直接使用：

TEXT

我想对【你的研究主题】做一次深度调研。

请不要直接给结论，而是按照以下流程完成：

1. 多视角分析：
请从实践者、学术研究者、怀疑论者、经济学人、历史观察者五个角度分析这个主题。
每个角度需要给出：
- 核心立场
- 最重要的证据
- 它能看到但其他视角容易忽略的事实

2. 矛盾地图：
请比较这些视角之间的冲突：
- 哪些观点直接矛盾？
- 哪些证据最强，哪些证据最弱？
- 所有视角都承认的共识是什么？
- 是否存在共同忽略的盲区？

3. 研究简报：
请把以上内容整理成一份研究简报：
- 一段话核心总结
- 5 个最重要发现，并按可信度排序
- 一个隐藏关联
- 面向【你的身份/目标】的行动建议
- 一个最值得继续研究的问题

4. 自我评审：
请审查这份简报：
- 每个关键发现的置信度
- 最薄弱的论点
- 可能存在的偏见
- 是否缺少关键视角
- 如果由严苛专家审阅，最需要修改哪里

结语

AI 时代真正重要的能力，可能不是“会不会用某个模型”，而是“会不会组织问题”。

当你只问一个问题时，AI 给你的往往是平均答案。当你让它从多个视角互相辩论时，它才更可能产出洞察。

不要只把 Claude、ChatGPT 或 Gemini 当搜索框。让它们成为你的研究小组。

这才是 STORM 方法最值得借鉴的地方。