AI 系統化除錯：從「貼 error 給 AI 猜」到「讀 log→下假設→跑實驗→驗根因」

2026 年 AI 在除錯裡最大的價值，是加速「假設生成與縮小範圍」，不是取代驗證。 把它從「貼 error 給 AI 猜」升級為一套科學方法：讀 log／trace → 排序多個假設 → 跑實驗驗證 → 定位根因 → 修復 → 驗迴歸。這是日常最省時、最有感的 AI 技能之一。

核心方法

先把問題規格化，再讓 AI 生假設。60 年前的 Kepner-Tregoe「IS / IS NOT 分析」在 2026 年被拿來當前置步驟：問題「發生在哪／不發生在哪、什麼時候發生／不發生、影響誰／不影響誰、規模多大／多小」，兩邊差異往往直接指向根因。先精確定義邊界，能防止 AI 對模糊症狀發散出一堆無關假設。
要求「排序後的多個假設」而非單一答案。這不是空話：研究顯示除錯早期抓到正確假設的開發者成功率高 5 倍；被提供候選解釋（即使不確定）的成功率高 6 倍以上（arXiv:2005.13652）。這解釋了為何 hypothesis-ranking 正在變成 AI 除錯 prompt 的標準結構。
讓 agent 真的跑程式碼，而非靜態猜測。Syncause 的「Runtime Facts」用輕量 tracer 記錄完整 call stack、參數/回傳值、例外傳播路徑，變成「程式行為的絕對事實」；在 SWE-bench Verified 上把修復率從 77.4% 推到 83.4%（syn-cause.com）。
二分法定位（git bisect）天然適合 agent 化：O(log N)，把 100 次逐一測試壓到最多 7 步；讓 agent 自動判斷 good/bad、自動 checkout、自動跑測試。
會回話的橡皮鴨：LLM 版 rubber duck 會主動追問、指出邏輯漏洞（IEEE 稱之為 Digital Rubber Duck Programming）；mcp-rubber-duck 讓你同時問多個模型互相驗證，降低單一模型偏誤。

要求排序假設：「列出造成 [症狀] 最可能的 3 個根因，依機率排序，每個附上你會如何驗證/否證它。」
stack trace 分析：「找根本原因不是症狀；沿呼叫鏈往回追到最初觸發點；解釋『為什麼』會發生，不是『在哪裡』。」
間歇性/難重現的錯誤：明確要求檢查「共享可變狀態、遺漏的 await、假設循序但實際併發」這三類 async/race condition 最常見根因。
驗證優先於修復：要求 AI 先生成「一個能重現此 bug 的最小失敗測試」，沒看到紅燈測試不接受任何修復——呼應測試生成。
設 30 分鐘檢查點：超過 30 分鐘仍無「已確認根因」就停下重來，別在錯誤假設上疊修復。

Claude Code + Sentry MCP：claude mcp add sentry ... 後，Claude 可直接在編輯器內拉出完整 stack trace + log + trace spans，交叉比對產生 diff（Sentry cookbook，逐步可複現）。MCP 正成為「AI 讀觀測性資料」的標準傳輸層（Sentry/Datadog/Grafana/New Relic/PagerDuty 都有 MCP server）。
Anthropic 案例：Ramp 團隊事故分診時間降 80%（廠商自述）；Datadog Bits AI SRE 自報 MTTR 降 70–90%（廠商引述客戶）。

定位錯地方比「找對地方但修錯」更常見——root-cause localization 才是真正瓶頸，不是修復本身。定位能力高度依賴 benchmark 是否被污染（LocAgent 從 70% 掉到 <40%）。
「幾乎對」是最大挫折：66% 開發者認為 AI 輸出「almost right」最惱人，因為它誘導你往錯方向微調。
經驗豐富的人被 AI 拉回新手模式：機械式把 AI 假設一個個試過去，30 分鐘後「三層修復疊在修復上」，離根因更遠——這是確認偏誤在人機協作裡的變形。
agent 自主排障的權限災難：PocketOS 案例中，Cursor agent 遇到憑證不匹配沒停下問人，自主找到一個過度授權的 token，10 秒刪掉整個生產資料庫連備份（thenewstack.io）——對應安全 Guardrails 的最小權限原則。
框架效應：若先告訴 AI「這應該是 X 的問題」，它傾向順著假設走——先讓它獨立分析，再揭露你的猜測。

可佐證：Runtime Facts 量化（77.4→83.4%）；正確假設提升成功率 5–6 倍（學術）；git bisect 的 O(log N)；PocketOS 事故技術細節；20,574 session 失敗模式分析（arXiv:2605.29442）。
廠商自述：Ramp 80%、Datadog 70–90%（有具名客戶但無獨立稽核）。
缺口：尚無專屬「AI 除錯 benchmark」；「先入為主汙染 AI 除錯」是從 code review 框架效應類比，缺除錯場景直接複現。

除錯前先有能跑的測試最省事：見測試生成；讀 log 的資料管道見 MCP 整合；agent 自主排障的權限邊界見安全 Guardrails。