衡量一個 AI 應用「到底好不好用」,靠的不是憑感覺,而是 evals(AI 評估)。2026 年 evals 已經從「上線前順手測一下」變成跟單元測試一樣的工程基礎建設——LangChain 的《2026 State of AI Agents》報告就指出,57% 的組織已有 AI 代理在生產環境運作,而 32% 的人把「品質」列為部署的最大障礙。今天我們就把 evals 學起來:它是什麼、為什麼傳統做法不夠用、以及你今天就能動手建一套。

📖 學(核心)

什麼是 evals? Evals(evaluations 的簡稱)就是一套有系統地衡量 AI 輸出品質的方法。你不再問「這個回答看起來還行吧?」,而是用可重複、可量化的測試,明確回答「這次改動到底讓系統變好還是變差」。可以把它想成 AI 版的單元測試。

為什麼 2026 年突然這麼重要? 兩個原因。第一,傳統學術 benchmark 飽和了——像 MMLU、MMLU-Pro 這類測驗,前沿模型分數都衝破 88%,頂端模型之間的差距已經沒有統計意義,光看 benchmark 分數無法告訴你「在我的場景裡哪個模型比較好」。第二,AI 代理(agent)崛起,一次任務不再是「一問一答」,而是串起規劃、呼叫工具、檢索、子代理交接的一長串「軌跡(trajectory)」,只看最後一句回答根本看不出中間哪裡壞掉。

四大評估面向。 2026 年談代理評估,重點分成四塊:工具呼叫(tool calling,有沒有挑對工具、參數對不對)、規劃(planning,步驟順序合不合理)、任務完成(task completion,最終有沒有達成目標)、推理(reasoning,思路是否站得住腳)。上線後再加上安全、延遲(latency)與成本三項。

軌跡層 vs 元件層。 評估要分兩個層次看。軌跡層(trajectory-level)問的是「整條路徑有沒有效率、合不合理」,能抓到只看輸出抓不到的問題:重複呼叫、用錯工具、危險步驟。元件層(component-level)則精準定位「是哪一個檢索器、工具或子代理壞掉」。

LLM-as-Judge 與它的極限。 用一個 LLM 去評另一個 LLM 的輸出,叫 LLM-as-Judge。它跟人類評審的一致率約 85%,比兩個人類彼此一致還高,所以成了大規模評估的預設方法。但 2026 年的共識是:LLM-as-Judge 是好的起點,卻不足以單獨撐全場。新做法是分層:用便宜的「蒸餾評估器(distilled evaluator)」在生產環境持續跑、用更貴的「agent-as-judge」做選擇性深度驗證、再保留人類專家審核處理領域正確性。

一個關鍵指標:pass^k。 你可能聽過 pass@k(k 次裡至少成功一次)。但面對顧客的代理需要的是 pass^k——k 次「每一次都要成功」,因為對使用者來說,不穩定本身就會摧毀信任。

Eval-Driven Development(評估驅動開發)。 把評估當成成熟工程看待單元測試的方式:不是獨立階段、不是可有可無、不是放到最後,而是內嵌在開發過程裡。觀測性(observability)是地基,評估甚至能直接嵌進代理執行時,當成即時護欄(guardrail)。

🧠 記

口訣:「四面、兩層、三護欄」

  • 四面:工具、規劃、完成、推理(評代理品質的四個面向)
  • 兩層:軌跡層看整條路、元件層定位壞點
  • 三護欄:安全、延遲、成本(上線後必盯)

再記一句:「能感覺,不算數;能量化,才能改。」 Evals 的全部精神就在這。

✍️ 實踐

今天就做一件可衡量的小事——幫你常用的某個 AI 任務建第一組「黃金評估集」:

  1. 挑一個你每天會用 AI 做的具體任務(例如「把會議記錄摘要成三點待辦」)。
  2. 收集 5 到 10 個真實輸入,並親手寫下每一個「理想答案」或「合格標準」。這就是你的黃金資料集(golden set)。
  3. 定義 1 到 2 個明確判準,例如「待辦是否可執行(是/否)」「是否漏掉關鍵決議(是/否)」。
  4. 把同一組輸入丟給 AI,逐筆對照判準打分,算出通過率(例如 7/10 = 70%)。
  5. 之後每次你換模型或改提示詞,重跑同一組,比較通過率——這就是你的個人 eval。

衡量標準:今天結束前,你手上要有一個「通過率數字」。下次改動後通過率上升,才叫真的進步。

🔗 延伸學習


💬 想深入?複製下面這段到 AI(ChatGPT、Claude…),再打上你的問題

你是我的「AI」學習教練。我今天在學的主題是「AI 評估 evals」,重點包括:四大評估面向(工具、規劃、完成、推理)、軌跡層與元件層、LLM-as-Judge 的優勢與極限、評估驅動開發與黃金資料集。請用淺白、可操作的方式回答我接下來的問題,需要時給例子和步驟。我的問題是:

↑ 複製整段貼到 AI,最後接上你的問題即可。