2026 年的 prompting,已經從「咒語式技巧」進化為「像帶資深下屬下 brief」:給目標、給邊界、給驗收標準,委任品質直接決定產出上限。 但關鍵平衡是——借用委任的技巧,不代表該把 AI 當人一樣賦予問責與自主判斷的期待,那部分仍留在人類手上。這是所有 AI 技能的三塊地基之一(另兩塊:Context Engineering、Evals)。
核心方法(Anthropic 官方,一手)
- Explore → Plan → Implement → Commit:分離「探索/規劃」與「執行」,避免 AI 一頭栽進去解錯問題。先 plan mode 只讀不改、生成詳細計畫、確認後才執行並要求跑測試驗證。官方原則:「若你能用一句話描述這個 diff,就跳過 plan。」(Claude Code Best Practices)
- 給驗收標準比給指令更重要——這是委任心法的核心。對照:
- ❌「implement a function that validates email addresses」
- ✅「write a validateEmail function. 範例:user@example.com→true, invalid→false, user@.com→false. run the tests after implementing」
- 先讓 AI 訪談你,再動工:大功能先讓 AI 反過來問清楚(技術實作、UI/UX、edge case、取捨),寫成 SPEC.md 再開新 session 執行。「把 spec 弄精確的時間,比看它實作的時間更值得。」——呼應 Spec-Driven。
- 少即是多:context engineering 的原則是「最小但高訊號密度的 token 集合」,而非塞越多越好;委任時給目標不代管步驟——鎖死步驟等於剝奪模型展現能力的機會。
- 驗證優先於信任(evidence over assertion):要求 AI 展示證據(測試輸出、指令回傳、截圖)而非只宣稱「做完了」——「檢視證據比自己重跑驗證更快,而且對你沒盯著看的 session 也有效」。
何時委任、何時自己做(Anthropic 工程師的一手田野判準)
- 委任:低複雜度但自己不熟的領域、容易驗證的工作(驗證成本遠低於產出成本)、獨立封裝的子元件、可丟棄的 debug code、重複或不想做的任務、預估耗時 >10 分鐘的工作。
- 自己做:策略性設計決策、高階架構、需組織脈絡或美感判斷的任務、自己深耕的複雜領域、要求高品質的程式碼。
- 工程師原話:「我越興奮想做的任務,越不會交給 AI。」
- 另一套效益比公式:當「(寫 prompt + 給 context + 驗證) 時間 < 手動實作 × 70%」才值得委任。
- supervision paradox:有效監督 AI,靠的是會因過度依賴 AI 而退化的能力本身——這是委任心法裡最少被提及卻最關鍵的悖論。
陷阱
- 過度指定反而變差(prompt bloat):把 prompt 塞滿細節、規範,反而降低準確度——「若你列出 10 條格式規則,AI 會把心力放在合規而非內容」。模型本來就能從脈絡推斷約 41% 未明說的需求。改用「orientation over prescription」:說明你是誰、重視什麼,但別把整段對話寫成腳本。
- 但模糊指令代價一樣真實——心法是「目標與邊界清楚,但不代管步驟」,不是「什麼都不講」。
- 矛盾指令比不具體更糟:「保持簡潔」vs「寧可完整」會直接損害表現;正確做法是「make tradeoffs explicit」(GPT-5.1 Prompting Guide)。
- 擬人化誤區(最反直覺的陷阱):HBR 2026-05 大型研究(BU + BCG)發現,把 AI agent 當「員工」——賦予人格、期待它像同事主動提問或知道何時停下——會降低問責感、增加不必要升級、降低覆核品質,且不會提升採用率。「agent 會滿懷信心地繼續執行一個有缺陷的計畫,遠超過人類隊友會停下來問問題的時點……問責不會轉移到模型身上,它留在部署它的人類身上。」(HBR)
- Sycophancy 未解決:若你要求 AI「複述理解」或「確認方向」,附和傾向可能讓它順著你已表達的偏好回答。它「被降低、被研究、被承認,但沒有被解決」。
- 「複述理解」不是免費午餐:對「有點模糊但方向明確」的指令,OpenAI 官方反而建議「be extremely biased for action」——任務規模決定策略:大功能先訪談成 spec,小修正/範圍明確的直接做。
主張 vs 可佐證
- 可佐證(官方一手):explore-plan-implement-commit、給驗收標準、context 最小高訊號原則、委任判準與 supervision paradox、矛盾指令有害、擬人化陷阱(HBR 大型實驗)、sycophancy 承認未解。
- 中/弱:prompt bloat 與「41% 推斷率」(部落格觀察,未見原始論文);「教團隊 55% 更快、錯誤少 40%」(行銷數字,未追到方法論)。
- 缺口:繁中/中文獨立研究幾乎缺席。
委任的脈絡打底見 Context Engineering;委任結果要能量化見 Evals;大功能的規格化見 Spec-Driven;多 agent 的委任語法見 Agentic Workflow;管理者層級的委任見 用 AI 帶團隊。