Agentic Workflow 與多代理協作：什麼時候該派兵，什麼時候別

從單輪對話，進化到「派多個 agent 平行做事、背景跑任務、互相審查」——但多代理不是免費午餐，用錯場景會更慢、更貴、更不可靠。 這篇同時講怎麼設計，以及更重要的：什麼時候根本不該用。

核心模式：Anthropic 六分類（業界事實標準詞彙）

出自 Building Effective Agents，幾乎所有 2026 年的框架文章都沿用這套詞彙：

三條操作原則：優先用最簡單方案；Workflow 為「可預測的事」建結構，Agent 探索「不可預測的事」；能硬編碼路徑就別上 agent。

Orchestrator-Worker：對每個 worker 強制固定輸出 schema（避免合併失敗）；設 worker 數硬上限 + token 預算——寬鬆的規劃 prompt 常生 10 個卻只需 3 個。
Evaluator-Optimizer：評估標準必須具體可操作，否則「模糊標準→模糊回饋→無效修正」。
高風險任務用對抗式交叉查核：讓獨立 agent 各自作答，再讓另一批主動嘗試「推翻」結論，收斂後才輸出。
worktree 隔離平行 session，避免同時改到同一檔案。
這一切的前提是 Context Engineering——子代理要拿到夠用的脈絡，回傳要濃縮。

Claude Code 四機制：Subagents（獨立 context，回報主對話）／ Agent view（交辦自查）／ Agent teams（lead + 隊友點對點）／ Dynamic workflows（腳本持有計畫，跑數十到數百 subagent，整合前先驗證）（docs）。
框架：LangGraph（控制最細）、CrewAI（role-based，原型快）、AutoGen → Microsoft Agent Framework（AutoGen 已進維護模式）、OpenAI Agents SDK、Claude Agent SDK、n8n（低程式碼串 SaaS）。
案例：Dynamic workflows 做過 750K 行 Rust→Zig 重寫，11 天完成、99.8% 既有測試通過（Anthropic）；有工程師用 agent team 接 Datadog/Slack/Sentry MCP 做事故調查，10 分鐘定位（vs 手動 30–45 分），但成本約 4×——關鍵不是提示技巧而是 MCP 整合完整度（magarcia.io）。

錯誤放大：獨立式多 agent 會把錯誤放大達 17.2×，集中式 4.4×，單 agent 是 1.0×——「多個 agent 互相檢查更可靠」的直覺是錯的，沒有驗證關卡的多 agent 反而更不可靠（arXiv:2512.08296，180 配置／14,742 次執行）。
發包式分解會失敗：subagent 看不到彼此的完整 trace，各自對「風格」等隱含決策做不同假設，合併時衝突（Cognition 的 Flappy Bird 例：一個做瑪利歐背景、一個做不搭的鳥，Don’t Build Multi-Agents）。
成本非線性：3 個 agent 常花到接近 10× 而非 3×。
官方明講不適用的場景：需要共享 context、agent 間高度相依、以及多數編碼任務（程式碼互相牽動，平行度低）。

可佐證：六分類是標準詞彙；「多數編碼任務不適合多代理」有 Anthropic + Cognition + 學術（MAST 失敗分類 arXiv:2503.13657）三方交叉印證；錯誤放大有嚴謹實驗。
中／存疑：多代理研究系統「勝過單代理 90.2%、token 15×」是 Anthropic 自評（且原文說 80% 效能變異只是「花更多 token」）；CrewAI 用量、GPT-5-Codex 85.5% 是廠商自報。
收斂結論：決定成敗的是 context engineering 與任務可分解性，agent 數量只是實作細節，不是萬靈丹也不是禁忌。

適合平行的典型場景是研究：見 AI 輔助深度研究。要讓 agent 能「動手」而非只聊天，接 MCP 與工具整合；多代理成本控制見成本與 Model Routing；工程實作的整體方法論見 AI Agentic SaaS。