Deep research 工具解決的是「Google 三小時」裡「開很多分頁、複製貼上、整理成文件」這一段體力活;「判斷哪個來源該信、哪個該打折扣」這一段判斷力活,仍需要人(或額外的對抗性查核機制)介入。 搜得快、搜得多,不等於搜得對。

核心方法:fan-out → 交叉驗證 → 合成

Anthropic 官方多 agent 研究系統的四階段(Anthropic):①lead agent 規劃策略 → ②fan-out 派 3–5 個獨立 context 的 subagent 平行探索不同面向 → ③各自迭代搜尋、評估品質、修正下一輪查詢 → ④lead 彙整,再交專門的 CitationAgent 逐一比對文件與報告、標定引用位置。內部評測比單一 agent 高 90.2%,但 token ~15×。

**對抗性查核(refute-or-promote)**的四個關鍵設計:①對抗性 kill mandate(查核者預設立場是找理由否決)②context asymmetry(查核者看不到生成者的推理)③跨模型 critic(查核與生成不同模型)④實證驗證(能查證處一律回頭對照原始資料)。

為什麼查核要跨模型/跨 context:研究發現一個 agent 是否願意修正錯誤主張,主要取決於該主張的「角色標籤」而非內容對錯(Self-Correction Illusion,arXiv:2606.05976)——單靠同一顆模型在同一對話串裡「再檢查一次」,可靠度有限。

Best practices(一人研究者也能用)

  • 把問題拆成 5+ 個互不重疊的搜尋角度(方法論、工具比較、正面案例、負面案例、最新爭議),即使沒有多 agent 基礎設施,也用「連續但角度分散」的搜尋降低單一路徑偏誤。
  • 角度分配一半對半:至少一半用來找「支持論點的證據」,另一半刻意找「反駁的證據」——單方向搜尋會讓確認偏誤發生在研究者自己身上。
  • 把每個角度寫成「可證偽的問題」:不要搜「deep research 好不好用」,要搜「deep research 幻覺引用比例是多少」。
  • 明確要求 output contract:凡是資料無法支撐的主張,一律標成 [UNCERTAIN];把「有出處可查」與「模型自己延伸推論」在輸出格式層物理隔開。
  • 用強/中/弱三級標記而非二元「有/沒有出處」:真實研究中大多數主張落在中間地帶,二元標記會逼讀者誤判確定性。
  • 對每個關鍵數字問三題:一手還是二手轉述?有無其他獨立來源交叉?來源網站有無可查證的作者/機構?三題全過才算「強可佐證」。

工具

  • OpenAI Deep Research(選「可控」:信任網站清單、中途介入、2026-06 開放 API 可嵌入自家產品)、Perplexity(選「快」:2–4 分鐘、來源透明、免費可用)、Gemini Deep Research(選「廣」:單次瀏覽 100+ 網頁、Workspace 整合、多模態)。三者沒有絕對優劣,取決於任務是要「快速拿到可驗證引用」還是「深度分析」還是「嵌入自動化」。
  • Claude 目前把深度研究能力優先包裝成垂直產品 Claude Science(面向科研/製藥)與 Claude.ai 的 Research 功能,而非大眾化的獨立「Deep Research 按鈕」。

陷阱(2026 年規模化的具體數據)

  • 幻覺引用:生醫文獻「至少含一則假引用」的比例三年成長 12 倍(2023 的 1/2828 → 2026 的 1/277);NeurIPS 2025 錄取論文即使經同行審查仍有 53 篇含確認的幻覺引用。ChatGPT-3.5 文獻回顧幻覺引用達 39.6–55%、GPT-4 仍 18–28.6%;「推理能力強」不等於「事實查核能力強」(o3 在 PersonQA 幻覺率 33%)。真實後果:內布拉斯加一名律師因訴狀含 20 則幻覺引用遭無限期停權——美國史上第一起。任何要對外發布/呈堂的引用,都必須人工逐條核對原文是否存在、內容是否吻合。
  • 內容農場污染(Retrieval Collapse):AI 生成內容主導搜尋結果、侵蝕來源多樣性。模擬中 67% 來源池被污染會導致 >80% 曝光污染,且答案準確率表面仍穩定——系統「看起來健康」但高度依賴同質合成來源。危險在於:多個搜尋結果可能來自同一批合成內容的不同轉載,表面像「多個獨立來源互相印證」,實際是同一污染源的鏡像(arXiv:2602.16136)。
  • 確認偏誤 2.0 / chat-chamber effect:AI 因高度個人化逐漸變成使用者想法的鏡子而非獨立查核者——比傳統回音室更隱蔽(傳統是「被動被餵」,AI 是「主動對話中被順著講」)。使用者側最低成本的防禦:把問題改寫成中性、雙向比較(「X 與 Y 的優缺點分別是什麼」),而非預設結論(「為什麼 X 比較好」)。
  • 看似權威實則二手:AI 常引用「討論某發現的評論文章」而非「最早報告的一手文獻」,因為新聞稿 SEO 通常優於學術原文——除非明確要求 agent 溯源到最原始的公告/論文。

主張 vs 可佐證

  • 可佐證:Anthropic 多 agent 架構與 90.2%/15×(官方);OpenAI/Perplexity/Gemini 三家功能更新(官方);幻覺引用統計(Lancet/STAT、NeurIPS 分析);律師停權(司法紀錄);Retrieval Collapse(ACM 收錄)。
  • :三家「快 vs 廣 vs 可控」定位(多篇獨立評測交叉);多篇 refute-or-promote/Self-Correction 論文(預印本)。
  • :SEO 廠商「人類內容流量 +23%」;大量「2026 趨勢」文高度同質、疑似互抄——多篇文章重複同一論點不代表獨立驗證。

Deep research 本質就是一個受控的 Agentic Workflow(fan-out + 對抗查核);查核方法呼應 決策與紅隊思考;用它產出的內容再進 寫作生產線PKM。本專欄的研究過程本身就是這套方法的實例。