AI Code Review 自動化：AI 先審、人審決策點

AI 產出的程式碼量爆炸，人力 review 成了瓶頸——但把 AI review 直接開下去，多半只會換來一堆雜訊。 2026 年真正有效的做法是一條分層 pipeline：AI 做「第一審」把明顯問題攔在人眼之前，人做「最終審」專注架構、業務邏輯、跨系統影響。

核心方法：Two-Tier + 風險分層

最扎實的一手數據來自 Cloudflare 的生產系統（2026 年 3–4 月 131,246 次審查、48,095 個 MR）：依 diff 規模與敏感度分流審查強度，不對每個 PR 一視同仁——

中位成本 $0.98、cache hit 85.7%、平均只產出 1.2 個發現（刻意保守）、break-glass 僅 0.6%（Cloudflare）。

分工原則：AI 管客觀低層級（風格、常見 bug、安全掃描、lint、去重分級）；人管主觀高層級（架構、業務邏輯是否正確、產品的「為什麼」、最終核准責任）。

主動降噪，把「不要標記什麼」寫進 prompt。Cloudflare 在每個 agent 的 prompt 放「NOT to Flag」段落，安全 agent 只報「可被利用的具體危險」，排除理論性風險。
給全倉庫上下文而非只看 diff（型別、模組相依、提交歷史）；跳過生成檔／lockfile；防 PR 描述被當指令（prompt injection）。
Policy gate 分級：critical 且高信心（硬編碼憑證、SQLi，近乎零誤報）→ 阻擋合併；warning → 非阻擋留言；break-glass 要留痕。
對 AI 生成的碼，審查應更久而非更快——它的失敗模式更隱晦，等速審查等於蓋橡皮章。
追蹤指標：cycle time、缺陷逃逸率、接受率（≥50% 才算可信）、override 率。

CodeRabbit（多平台、Martian 獨立 benchmark F1 第一、precision ~49%）、Greptile（code graph、跨檔案）、Cursor Bugbot（精準度佳、綁 IDE 座位）、GitHub Copilot code review（GitHub 原生、已達平台 20%+ 審查量）、Anthropic Code Review for Claude Code（多代理，官方稱 substantive comment 從 16% 升到 54%、>1000 行 PR 有 84% 有發現、<1% 被標為誤報，blog）。
大廠內部：Microsoft 覆蓋 >90% PR、600K+ PR/月；Google AutoCommenter usefulness 54–74%。

雜訊過載 → 警示疲勞 → 忽略所有評論。最透明的實測：Lychee 一個月 CodeRabbit 稽核，約 28% 純雜訊，但也抓到人類漏掉的 zip-slip 與 IDOR（lycheeorg）。
審查時間可能不減反增：METR RCT 顯示允許用 AI 反而讓完成時間 +19%（arXiv:2507.09089）；Meta A/B 給審查者看 AI 建議 +5.5%（arXiv:2507.13499）。
框架效應失明：只要在描述裡暗示「已審查過」，GPT-4o-mini 漏洞偵測率從 97.2% 崩到 3.6%（arXiv:2603.18740）。
Rubber-stamping：Intercom 自曝 19% PR 無人審就自動核准（fin.ai）。

可佐證：Cloudflare 架構數字（一手）；雜訊／低召回率普遍（多篇學術，最佳模型 precision 僅 16.65%、arXiv:2509.01494）；框架效應、審查時間增加。
不可佐證：各家「82%／95.88% 抓取率」是廠商自評，DeepSource 用相同資料重跑把 Greptile 82% 打成 45%；「9 誤報換 1 真 bug」「40% 忽略」屬查無來源的引用漂白。這個領域還沒有「AI code review 界的 SWE-bench」。

review 只是把關的一環——上游先寫清楚見 Spec-Driven，配套的自動化測試見測試生成，發現 bug 後的根因追查見系統化除錯。多 agent 平行審查的成本結構見成本與路由。整體工程判斷見 Engineering AI Coding Methodology。