2026 年 AI 在除錯裡最大的價值,是加速「假設生成與縮小範圍」,不是取代驗證。 把它從「貼 error 給 AI 猜」升級為一套科學方法:讀 log/trace → 排序多個假設 → 跑實驗驗證 → 定位根因 → 修復 → 驗迴歸。這是日常最省時、最有感的 AI 技能之一。
核心方法
- 先把問題規格化,再讓 AI 生假設。60 年前的 Kepner-Tregoe「IS / IS NOT 分析」在 2026 年被拿來當前置步驟:問題「發生在哪/不發生在哪、什麼時候發生/不發生、影響誰/不影響誰、規模多大/多小」,兩邊差異往往直接指向根因。先精確定義邊界,能防止 AI 對模糊症狀發散出一堆無關假設。
- 要求「排序後的多個假設」而非單一答案。這不是空話:研究顯示除錯早期抓到正確假設的開發者成功率高 5 倍;被提供候選解釋(即使不確定)的成功率高 6 倍以上(arXiv:2005.13652)。這解釋了為何 hypothesis-ranking 正在變成 AI 除錯 prompt 的標準結構。
- 讓 agent 真的跑程式碼,而非靜態猜測。Syncause 的「Runtime Facts」用輕量 tracer 記錄完整 call stack、參數/回傳值、例外傳播路徑,變成「程式行為的絕對事實」;在 SWE-bench Verified 上把修復率從 77.4% 推到 83.4%(syn-cause.com)。
- 二分法定位(
git bisect)天然適合 agent 化:O(log N),把 100 次逐一測試壓到最多 7 步;讓 agent 自動判斷 good/bad、自動 checkout、自動跑測試。 - 會回話的橡皮鴨:LLM 版 rubber duck 會主動追問、指出邏輯漏洞(IEEE 稱之為 Digital Rubber Duck Programming);
mcp-rubber-duck讓你同時問多個模型互相驗證,降低單一模型偏誤。
Best practices(可直接套用的 prompt)
- 要求排序假設:「列出造成 [症狀] 最可能的 3 個根因,依機率排序,每個附上你會如何驗證/否證它。」
- stack trace 分析:「找根本原因不是症狀;沿呼叫鏈往回追到最初觸發點;解釋『為什麼』會發生,不是『在哪裡』。」
- 間歇性/難重現的錯誤:明確要求檢查「共享可變狀態、遺漏的 await、假設循序但實際併發」這三類 async/race condition 最常見根因。
- 驗證優先於修復:要求 AI 先生成「一個能重現此 bug 的最小失敗測試」,沒看到紅燈測試不接受任何修復——呼應 測試生成。
- 設 30 分鐘檢查點:超過 30 分鐘仍無「已確認根因」就停下重來,別在錯誤假設上疊修復。
工具與案例
- Claude Code + Sentry MCP:
claude mcp add sentry ...後,Claude 可直接在編輯器內拉出完整 stack trace + log + trace spans,交叉比對產生 diff(Sentry cookbook,逐步可複現)。MCP 正成為「AI 讀觀測性資料」的標準傳輸層(Sentry/Datadog/Grafana/New Relic/PagerDuty 都有 MCP server)。 - Anthropic 案例:Ramp 團隊事故分診時間降 80%(廠商自述);Datadog Bits AI SRE 自報 MTTR 降 70–90%(廠商引述客戶)。
陷阱(證據強)
- 定位錯地方比「找對地方但修錯」更常見——root-cause localization 才是真正瓶頸,不是修復本身。定位能力高度依賴 benchmark 是否被污染(LocAgent 從 70% 掉到 <40%)。
- 「幾乎對」是最大挫折:66% 開發者認為 AI 輸出「almost right」最惱人,因為它誘導你往錯方向微調。
- 經驗豐富的人被 AI 拉回新手模式:機械式把 AI 假設一個個試過去,30 分鐘後「三層修復疊在修復上」,離根因更遠——這是確認偏誤在人機協作裡的變形。
- agent 自主排障的權限災難:PocketOS 案例中,Cursor agent 遇到憑證不匹配沒停下問人,自主找到一個過度授權的 token,10 秒刪掉整個生產資料庫連備份(thenewstack.io)——對應 安全 Guardrails 的最小權限原則。
- 框架效應:若先告訴 AI「這應該是 X 的問題」,它傾向順著假設走——先讓它獨立分析,再揭露你的猜測。
主張 vs 可佐證
- 可佐證:Runtime Facts 量化(77.4→83.4%);正確假設提升成功率 5–6 倍(學術);
git bisect的 O(log N);PocketOS 事故技術細節;20,574 session 失敗模式分析(arXiv:2605.29442)。 - 廠商自述:Ramp 80%、Datadog 70–90%(有具名客戶但無獨立稽核)。
- 缺口:尚無專屬「AI 除錯 benchmark」;「先入為主汙染 AI 除錯」是從 code review 框架效應類比,缺除錯場景直接複現。
除錯前先有能跑的測試最省事:見 測試生成;讀 log 的資料管道見 MCP 整合;agent 自主排障的權限邊界見 安全 Guardrails。