用 STORM 方法做一次真正的深度调研
很多人使用 AI 的方式,其实还停留在“搜索框时代”。
输入一个问题,等待一个答案。 如果答案看起来流畅,就觉得它“很聪明”;如果答案有点空,就换个模型再问一遍。
但这并没有真正发挥大模型的价值。
最近 Nav Toor 在 X 上分享了一套基于 Stanford STORM 思路的 Claude 调研方法,核心不是让 AI “更会回答”,而是让 AI 像研究者一样拆解问题:从多个立场提问,暴露冲突,综合证据,再进行自我审查。(X (formerly Twitter))
STORM 到底是什么?
STORM 是 Stanford OVAL 提出的一个知识整理与长文写作系统,全称是 Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking,大意是:通过检索和多视角提问来综合主题大纲。它的目标不是简单生成一篇文章,而是在写作之前先完成“研究”和“搭框架”的过程。(ACL Anthology)
它背后的思想很朴素:
好的问题,往往不是从一个角度问出来的。 真正的洞察,通常藏在不同视角的冲突里。
所以 STORM 不急着输出结论,而是先让模型模拟不同角色:实践者、学者、怀疑者、经济学人、历史学家。每个角色都带着自己的问题意识去看同一个主题。
这一步非常关键。 因为普通提问容易得到“互联网平均答案”,而多视角提问会逼迫模型暴露问题的复杂性。
一套可复用的 AI 深度调研流程
这套方法可以拆成四步。
第一步:多视角扫描
不要直接问:
帮我分析一下 X。
而是让 AI 从多个角色出发:
请从实践者、学术研究者、怀疑论者、经济学人、历史观察者五个角度分析这个问题。 每个角度都要说明:它最关心什么、它掌握什么证据、它可能看到哪些其他角度忽略的事实。
这样做的好处是,模型不会只顺着一个方向讲故事。
实践者会提醒你现实操作里的摩擦; 学者会要求证据和同行评议; 怀疑者会专门找漏洞; 经济学人会追问利益结构; 历史学家会寻找周期和先例。
一个问题被五种视角同时照亮后,信息密度会明显提高。
第二步:画出矛盾地图
多视角分析之后,不要马上总结。 下一步应该让 AI 找冲突。
你可以继续问:
上面这些视角之间,哪些观点是直接矛盾的? 哪些证据最强?哪些证据最弱? 所有视角都承认的共识是什么? 有没有所有人都忽略的盲区?
这一步的价值在于:它把“看起来都对”的观点放到同一张桌子上比较。
很多 AI 生成内容的问题,不是没有信息,而是没有冲突。 它会把各种材料平铺出来,但不告诉你哪些观点互相打架、哪些论点其实站不住。
而研究的关键,恰恰是识别冲突。
第三步:综合成研究简报
当视角和冲突都清楚之后,再让 AI 输出正式简报。
可以要求它包含:
- 用一段话讲清楚核心结论
- 按可信度排序列出关键发现
- 说明每个发现由哪些视角支持、又被哪些视角质疑
- 找出一个隐藏关联
- 给出面向具体角色的行动建议
- 提出一个最值得继续研究的前沿问题
这一步很适合用于写文章、做竞品分析、研究新技术方向、准备面试、判断商业机会。
因为它输出的不是“资料堆砌”,而是一份有结构、有冲突、有行动含义的研究结果。
第四步:让 AI 自我评审
最后一步很多人会忽略:让 AI 审查自己的答案。
你可以问:
请对刚才的研究简报做一次严格评审。 哪些结论置信度最高?哪些最弱? 是否存在偏见? 是否缺少关键视角? 如果由一位严苛的教授审阅,他会要求你修改哪里?
这一步不是形式主义。
大模型最大的问题之一,是它很容易把“讲得顺”包装成“讲得对”。 自我评审的作用,就是强制它把结论拆开,标记不确定性,暴露薄弱环节。
为什么这比普通 Prompt 更有效?
普通 Prompt 的逻辑是:
我问一个问题,你给一个答案。
STORM 式 Prompt 的逻辑是:
我先让你从多个角度提出问题,再让你比较冲突,最后才综合答案。
这两者差别很大。
前者像搜索。 后者像研究。
搜索追求速度,研究追求结构。 搜索容易得到结论,研究会先暴露不确定性。 搜索把 AI 当信息压缩器,研究把 AI 当思考协作者。
Stanford 的 STORM 论文也强调了预写作阶段的重要性:在正式写作前,系统需要先发现不同视角、模拟带有不同立场的提问,并基于可信来源整理信息和大纲。(ACL Anthology)
适合用在哪些场景?
这套方法特别适合复杂问题,比如:
- 调研一个新技术方向
- 分析一个产品机会
- 判断一个行业趋势
- 写一篇深度博客
- 准备面试或分享
- 做投资、职业、创业方向判断
- 分析一个争议性观点
它不太适合问简单事实,比如“某个命令怎么写”“某个概念是什么意思”。 但只要问题涉及多方利益、历史背景、证据强弱、行动决策,这套方法就很有用。
但也别神化它
STORM 不是让 AI 自动变成博士。 它只是把研究流程结构化了。
你仍然需要注意三件事:
第一,AI 可能引用不可靠来源。 第二,它可能把无关事实强行关联。 第三,它可能继承检索结果里的偏见。
STORM 论文中也提到,生成长文仍然会遇到来源偏差转移、无关事实过度关联等挑战。(arXiv)
所以更准确的说法是:
STORM 不是替你完成判断,而是帮你搭建一个更好的判断框架。
一个可直接复制的通用模板
你可以把下面这段保存下来,以后调研复杂问题时直接使用:
我想对【你的研究主题】做一次深度调研。
请不要直接给结论,而是按照以下流程完成:
1. 多视角分析:
请从实践者、学术研究者、怀疑论者、经济学人、历史观察者五个角度分析这个主题。
每个角度需要给出:
- 核心立场
- 最重要的证据
- 它能看到但其他视角容易忽略的事实
2. 矛盾地图:
请比较这些视角之间的冲突:
- 哪些观点直接矛盾?
- 哪些证据最强,哪些证据最弱?
- 所有视角都承认的共识是什么?
- 是否存在共同忽略的盲区?
3. 研究简报:
请把以上内容整理成一份研究简报:
- 一段话核心总结
- 5 个最重要发现,并按可信度排序
- 一个隐藏关联
- 面向【你的身份/目标】的行动建议
- 一个最值得继续研究的问题
4. 自我评审:
请审查这份简报:
- 每个关键发现的置信度
- 最薄弱的论点
- 可能存在的偏见
- 是否缺少关键视角
- 如果由严苛专家审阅,最需要修改哪里
结语
AI 时代真正重要的能力,可能不是“会不会用某个模型”,而是“会不会组织问题”。
当你只问一个问题时,AI 给你的往往是平均答案。 当你让它从多个视角互相辩论时,它才更可能产出洞察。
不要只把 Claude、ChatGPT 或 Gemini 当搜索框。 让它们成为你的研究小组。
这才是 STORM 方法最值得借鉴的地方。