AI 成本工程與 Model Routing：token 帳單是新的雲端成本

大模型做難題、小模型做雜活、cache 省重複——路由與快取策略直接決定 AI 產品的毛利。 AI 應用毛利落在 40–70%（傳統 SaaS 是 70–90%），差距就來自推論成本直接計入 COGS。目標不是「永遠用最強模型」，而是「每一塊錢換到最好的結果」。

核心方法

Routing vs Cascading（兩種不同機制）：Routing 是對查詢做「單次決策」直接分派；Cascading 是「先送便宜模型，信心不足才升級」。決策時機分 pre-request（規則/分類，成本最低）、at-inference（即時級聯，準確度最高）、post-response（事後判斷是否重試）。Cascade 系統可保留最強模型 97–99% 準確度同時降成本（arXiv:2606.27457）。
難度分類：啟發式（長度、詞彙稀有度）、學習型分類器（BERT/matrix factorization，RouteLLM）、token budget 預測（讓 LLM 自估「這題要多少 token」）。Router 開銷相對 LLM 500–2000ms 回應可忽略（規則 <1ms、embedding ~5ms、ML 分類器 50–100ms）。
Prompt/Context Caching（官方，可佐證）：Anthropic prompt caching 讓快取命中的輸入成本降 90%（5 分鐘快取：寫入 1.25×、讀取 0.1×）；Gemini 2.5+ 快取 token 只付標準輸入價 10%。
Batch API 疊加折扣：OpenAI/Gemini 的 Batch API 輸入輸出全面 5 折（24 小時 SLA）；若 batch 前綴命中 prompt cache 還能再打 5 折，理論疊到原價 25%。
Semantic cache：用向量相似度抓「語意相同但措辭不同」的重複；但 Portkey 內建、LiteLLM/OpenRouter 需自接。

Best practices

先量測，再路由：多數團隊在無量測狀態下低估真實 token 成本 2–5 倍（忽略 reasoning tokens、agent loop、retry）——先 profiling 再動手。
Cascade 優先於一次性分類路由（見下方 Pareto Trap）。
快取前綴要凍結：system prompt / tool definitions 一旦進快取前綴，就不能塞逐請求變動的欄位（時間戳、user ID、request ID）；個人化內容放到前綴之後。
快取加版本標籤 + TTL 雙保險；模型升級會清空快取，生產升級要預期短期成本尖峰。
升級率是健康度訊號：escalation rate 超過 35% 代表閾值設定有問題（經驗法則）。

最重要的陷阱：Pareto Trap

一個客服團隊用分類器把查詢標成簡單（65%）/複雜（35%），簡單的路由到便宜模型——上線 8 週推論帳單降到 40%（省 60%），監控全綠。但 3 個月後才浮現：便宜模型在「簡單查詢的長尾邊界」系統性失敗（「我的費用來自哪裡」表面像帳戶查詢，實際牽涉詐欺調查），失敗案例沒被標記，流向人工客服。淨影響：省下 ~ $100 K / 月推論成本，但隱藏成本（流失、人工暴增）達$ 400–500K/月，淨為負。（Towards Data Science）

修法：改用「不確定性級聯」——每個查詢先送便宜模型，依信心分數決定是否升級（省幅降到 35% 但保住長尾品質）；新增分層品質監測、長尾滿意度過度採樣、路由信心漂移追蹤。通用教訓：省下的錢在儀表板看得見，代價卻由看不見路由決策的下游使用者承擔；靜態測試集會過期，平均分佈會掩蓋邊緣劣化——觀測要看長尾不能只看均值。

其他陷阱

大廠也會踩路由基礎設施錯誤：Anthropic 2026-08 一個 bug 把 ~0.8% Sonnet 4 請求誤路由到錯配置伺服器，~30% Claude Code 使用者至少收到一則品質下降回應（postmortem）。
Semantic cache 的正確性/安全陷阱：false positive 匹配、快取污染（構造 embedding 碰撞）、錯誤被放大（錯答案被後續相似查詢重複拿到）、無 TTL 讓過時答案永存。要加品質閘門、回饋淘汰、輸入清洗。

主張 vs 可佐證

可佐證（官方/一手）：prompt caching 定價、Batch API 5 折、routing/cascading 分類法、Cluster-Route-Escalate 97–99% 保留、RouterArena benchmark、Anthropic postmortem、Pareto Trap 案例（已驗證原文）。
主張／量級參考：「路由+快取+批次疊加降 60–80%」等區間是多篇部落格收斂的粗略共識，統計口徑不一，當量級參考而非精確保證；各廠商「降 40–66%」案例皆自述。
注意：RouteLLM 常被引的「85%/45%」只對 GPT-4 Turbo vs Mixtral 8x7B 這一組配對成立，別當通用。

成本問題在 Agentic Workflow（多 agent token 4–15×）與 MCP 整合（工具定義 token 成本）裡尤其尖銳；快取前綴設計呼應 Context Engineering；毛利與商業模式見 AI-Native 產品與 AI 時代護城河。

我的知識庫

探索