AI · 2026-06-25

衡量一個 AI 應用「到底好不好用」，靠的不是憑感覺，而是 evals（AI 評估）。2026 年 evals 已經從「上線前順手測一下」變成跟單元測試一樣的工程基礎建設——LangChain 的《2026 State of AI Agents》報告就指出，57% 的組織已有 AI 代理在生產環境運作，而 32% 的人把「品質」列為部署的最大障礙。今天我們就把 evals 學起來：它是什麼、為什麼傳統做法不夠用、以及你今天就能動手建一套。

📖 學（核心）

什麼是 evals？ Evals（evaluations 的簡稱）就是一套有系統地衡量 AI 輸出品質的方法。你不再問「這個回答看起來還行吧？」，而是用可重複、可量化的測試，明確回答「這次改動到底讓系統變好還是變差」。可以把它想成 AI 版的單元測試。

為什麼 2026 年突然這麼重要？ 兩個原因。第一，傳統學術 benchmark 飽和了——像 MMLU、MMLU-Pro 這類測驗，前沿模型分數都衝破 88%，頂端模型之間的差距已經沒有統計意義，光看 benchmark 分數無法告訴你「在我的場景裡哪個模型比較好」。第二，AI 代理（agent）崛起，一次任務不再是「一問一答」，而是串起規劃、呼叫工具、檢索、子代理交接的一長串「軌跡（trajectory）」，只看最後一句回答根本看不出中間哪裡壞掉。

四大評估面向。 2026 年談代理評估，重點分成四塊：工具呼叫（tool calling，有沒有挑對工具、參數對不對）、規劃（planning，步驟順序合不合理）、任務完成（task completion，最終有沒有達成目標）、推理（reasoning，思路是否站得住腳）。上線後再加上安全、延遲（latency）與成本三項。

軌跡層 vs 元件層。 評估要分兩個層次看。軌跡層（trajectory-level）問的是「整條路徑有沒有效率、合不合理」，能抓到只看輸出抓不到的問題：重複呼叫、用錯工具、危險步驟。元件層（component-level）則精準定位「是哪一個檢索器、工具或子代理壞掉」。

LLM-as-Judge 與它的極限。 用一個 LLM 去評另一個 LLM 的輸出，叫 LLM-as-Judge。它跟人類評審的一致率約 85%，比兩個人類彼此一致還高，所以成了大規模評估的預設方法。但 2026 年的共識是：LLM-as-Judge 是好的起點，卻不足以單獨撐全場。新做法是分層：用便宜的「蒸餾評估器（distilled evaluator）」在生產環境持續跑、用更貴的「agent-as-judge」做選擇性深度驗證、再保留人類專家審核處理領域正確性。

一個關鍵指標：pass^k。 你可能聽過 pass@k（k 次裡至少成功一次）。但面對顧客的代理需要的是 pass^k——k 次「每一次都要成功」，因為對使用者來說，不穩定本身就會摧毀信任。

Eval-Driven Development（評估驅動開發）。 把評估當成成熟工程看待單元測試的方式：不是獨立階段、不是可有可無、不是放到最後，而是內嵌在開發過程裡。觀測性（observability）是地基，評估甚至能直接嵌進代理執行時，當成即時護欄（guardrail）。

🧠 記

口訣：「四面、兩層、三護欄」

四面：工具、規劃、完成、推理（評代理品質的四個面向）
兩層：軌跡層看整條路、元件層定位壞點
三護欄：安全、延遲、成本（上線後必盯）

再記一句：「能感覺，不算數；能量化，才能改。」 Evals 的全部精神就在這。

✍️ 實踐

今天就做一件可衡量的小事——幫你常用的某個 AI 任務建第一組「黃金評估集」：

挑一個你每天會用 AI 做的具體任務（例如「把會議記錄摘要成三點待辦」）。
收集 5 到 10 個真實輸入，並親手寫下每一個「理想答案」或「合格標準」。這就是你的黃金資料集（golden set）。
定義 1 到 2 個明確判準，例如「待辦是否可執行（是/否）」「是否漏掉關鍵決議（是/否）」。
把同一組輸入丟給 AI，逐筆對照判準打分，算出通過率（例如 7/10 = 70%）。
之後每次你換模型或改提示詞，重跑同一組，比較通過率——這就是你的個人 eval。

衡量標準：今天結束前，你手上要有一個「通過率數字」。下次改動後通過率上升，才叫真的進步。

🔗 延伸學習

💬 想深入？複製下面這段到 AI（ChatGPT、Claude…），再打上你的問題

你是我的「AI」學習教練。我今天在學的主題是「AI 評估 evals」，重點包括：四大評估面向（工具、規劃、完成、推理）、軌跡層與元件層、LLM-as-Judge 的優勢與極限、評估驅動開發與黃金資料集。請用淺白、可操作的方式回答我接下來的問題，需要時給例子和步驟。我的問題是：

↑ 複製整段貼到 AI，最後接上你的問題即可。

我的知識庫

探索

AI · 2026-06-25

📖 學（核心）

🧠 記

✍️ 實踐

🔗 延伸學習

💬 想深入？複製下面這段到 AI（ChatGPT、Claude…），再打上你的問題

關係圖譜

目錄

反向連結