AI 輔助深度研究：多路搜尋→交叉驗證→對抗查核→合成報告

Deep research 工具解決的是「Google 三小時」裡「開很多分頁、複製貼上、整理成文件」這一段體力活；「判斷哪個來源該信、哪個該打折扣」這一段判斷力活，仍需要人（或額外的對抗性查核機制）介入。搜得快、搜得多，不等於搜得對。

核心方法：fan-out → 交叉驗證 → 合成

Anthropic 官方多 agent 研究系統的四階段（Anthropic）：①lead agent 規劃策略 → ②fan-out 派 3–5 個獨立 context 的 subagent 平行探索不同面向 → ③各自迭代搜尋、評估品質、修正下一輪查詢 → ④lead 彙整，再交專門的 CitationAgent 逐一比對文件與報告、標定引用位置。內部評測比單一 agent 高 90.2%，但 token ~15×。

**對抗性查核（refute-or-promote）**的四個關鍵設計：①對抗性 kill mandate（查核者預設立場是找理由否決）②context asymmetry（查核者看不到生成者的推理）③跨模型 critic（查核與生成不同模型）④實證驗證（能查證處一律回頭對照原始資料）。

為什麼查核要跨模型/跨 context：研究發現一個 agent 是否願意修正錯誤主張，主要取決於該主張的「角色標籤」而非內容對錯（Self-Correction Illusion，arXiv:2606.05976）——單靠同一顆模型在同一對話串裡「再檢查一次」，可靠度有限。

Best practices（一人研究者也能用）

把問題拆成 5+ 個互不重疊的搜尋角度（方法論、工具比較、正面案例、負面案例、最新爭議），即使沒有多 agent 基礎設施，也用「連續但角度分散」的搜尋降低單一路徑偏誤。
角度分配一半對半：至少一半用來找「支持論點的證據」，另一半刻意找「反駁的證據」——單方向搜尋會讓確認偏誤發生在研究者自己身上。
把每個角度寫成「可證偽的問題」：不要搜「deep research 好不好用」，要搜「deep research 幻覺引用比例是多少」。
明確要求 output contract：凡是資料無法支撐的主張，一律標成 [UNCERTAIN]；把「有出處可查」與「模型自己延伸推論」在輸出格式層物理隔開。
用強/中/弱三級標記而非二元「有/沒有出處」：真實研究中大多數主張落在中間地帶，二元標記會逼讀者誤判確定性。
對每個關鍵數字問三題：一手還是二手轉述？有無其他獨立來源交叉？來源網站有無可查證的作者/機構？三題全過才算「強可佐證」。

工具

OpenAI Deep Research（選「可控」：信任網站清單、中途介入、2026-06 開放 API 可嵌入自家產品）、Perplexity（選「快」：2–4 分鐘、來源透明、免費可用）、Gemini Deep Research（選「廣」：單次瀏覽 100+ 網頁、Workspace 整合、多模態）。三者沒有絕對優劣，取決於任務是要「快速拿到可驗證引用」還是「深度分析」還是「嵌入自動化」。
Claude 目前把深度研究能力優先包裝成垂直產品 Claude Science（面向科研/製藥）與 Claude.ai 的 Research 功能，而非大眾化的獨立「Deep Research 按鈕」。

陷阱（2026 年規模化的具體數據）

幻覺引用：生醫文獻「至少含一則假引用」的比例三年成長 12 倍（2023 的 1/2828 → 2026 的 1/277）；NeurIPS 2025 錄取論文即使經同行審查仍有 53 篇含確認的幻覺引用。ChatGPT-3.5 文獻回顧幻覺引用達 39.6–55%、GPT-4 仍 18–28.6%；「推理能力強」不等於「事實查核能力強」（o3 在 PersonQA 幻覺率 33%）。真實後果：內布拉斯加一名律師因訴狀含 20 則幻覺引用遭無限期停權——美國史上第一起。任何要對外發布/呈堂的引用，都必須人工逐條核對原文是否存在、內容是否吻合。
內容農場污染（Retrieval Collapse）：AI 生成內容主導搜尋結果、侵蝕來源多樣性。模擬中 67% 來源池被污染會導致 >80% 曝光污染，且答案準確率表面仍穩定——系統「看起來健康」但高度依賴同質合成來源。危險在於：多個搜尋結果可能來自同一批合成內容的不同轉載，表面像「多個獨立來源互相印證」，實際是同一污染源的鏡像（arXiv:2602.16136）。
確認偏誤 2.0 / chat-chamber effect：AI 因高度個人化逐漸變成使用者想法的鏡子而非獨立查核者——比傳統回音室更隱蔽（傳統是「被動被餵」，AI 是「主動對話中被順著講」）。使用者側最低成本的防禦：把問題改寫成中性、雙向比較（「X 與 Y 的優缺點分別是什麼」），而非預設結論（「為什麼 X 比較好」）。
看似權威實則二手：AI 常引用「討論某發現的評論文章」而非「最早報告的一手文獻」，因為新聞稿 SEO 通常優於學術原文——除非明確要求 agent 溯源到最原始的公告/論文。

主張 vs 可佐證

可佐證：Anthropic 多 agent 架構與 90.2%/15×（官方）；OpenAI/Perplexity/Gemini 三家功能更新（官方）；幻覺引用統計（Lancet/STAT、NeurIPS 分析）；律師停權（司法紀錄）；Retrieval Collapse（ACM 收錄）。
中：三家「快 vs 廣 vs 可控」定位（多篇獨立評測交叉）；多篇 refute-or-promote/Self-Correction 論文（預印本）。
弱：SEO 廠商「人類內容流量 +23%」；大量「2026 趨勢」文高度同質、疑似互抄——多篇文章重複同一論點不代表獨立驗證。

Deep research 本質就是一個受控的 Agentic Workflow（fan-out + 對抗查核）；查核方法呼應決策與紅隊思考；用它產出的內容再進寫作生產線與 PKM。本專欄的研究過程本身就是這套方法的實例。

我的知識庫

探索

AI 輔助深度研究：多路搜尋→交叉驗證→對抗查核→合成報告

核心方法：fan-out → 交叉驗證 → 合成

Best practices（一人研究者也能用）

工具

陷阱（2026 年規模化的具體數據）

主張 vs 可佐證

反向連結