大模型做難題、小模型做雜活、cache 省重複——路由與快取策略直接決定 AI 產品的毛利。 AI 應用毛利落在 40–70%(傳統 SaaS 是 70–90%),差距就來自推論成本直接計入 COGS。目標不是「永遠用最強模型」,而是「每一塊錢換到最好的結果」。

核心方法

  • Routing vs Cascading(兩種不同機制):Routing 是對查詢做「單次決策」直接分派;Cascading 是「先送便宜模型,信心不足才升級」。決策時機分 pre-request(規則/分類,成本最低)、at-inference(即時級聯,準確度最高)、post-response(事後判斷是否重試)。Cascade 系統可保留最強模型 97–99% 準確度同時降成本arXiv:2606.27457)。
  • 難度分類:啟發式(長度、詞彙稀有度)、學習型分類器(BERT/matrix factorization,RouteLLM)、token budget 預測(讓 LLM 自估「這題要多少 token」)。Router 開銷相對 LLM 500–2000ms 回應可忽略(規則 <1ms、embedding ~5ms、ML 分類器 50–100ms)。
  • Prompt/Context Caching(官方,可佐證):Anthropic prompt caching 讓快取命中的輸入成本降 90%(5 分鐘快取:寫入 1.25×、讀取 0.1×);Gemini 2.5+ 快取 token 只付標準輸入價 10%。
  • Batch API 疊加折扣:OpenAI/Gemini 的 Batch API 輸入輸出全面 5 折(24 小時 SLA);若 batch 前綴命中 prompt cache 還能再打 5 折,理論疊到原價 25%。
  • Semantic cache:用向量相似度抓「語意相同但措辭不同」的重複;但 Portkey 內建、LiteLLM/OpenRouter 需自接。

Best practices

  • 先量測,再路由:多數團隊在無量測狀態下低估真實 token 成本 2–5 倍(忽略 reasoning tokens、agent loop、retry)——先 profiling 再動手。
  • Cascade 優先於一次性分類路由(見下方 Pareto Trap)。
  • 快取前綴要凍結:system prompt / tool definitions 一旦進快取前綴,就不能塞逐請求變動的欄位(時間戳、user ID、request ID);個人化內容放到前綴之後。
  • 快取加版本標籤 + TTL 雙保險;模型升級會清空快取,生產升級要預期短期成本尖峰。
  • 升級率是健康度訊號:escalation rate 超過 35% 代表閾值設定有問題(經驗法則)。

最重要的陷阱:Pareto Trap

一個客服團隊用分類器把查詢標成簡單(65%)/複雜(35%),簡單的路由到便宜模型——上線 8 週推論帳單降到 40%(省 60%),監控全綠。但 3 個月後才浮現:便宜模型在「簡單查詢的長尾邊界」系統性失敗(「我的費用來自哪裡」表面像帳戶查詢,實際牽涉詐欺調查),失敗案例沒被標記,流向人工客服。淨影響:省下 ~400–500K/月,淨為負。Towards Data Science

修法:改用「不確定性級聯」——每個查詢先送便宜模型,依信心分數決定是否升級(省幅降到 35% 但保住長尾品質);新增分層品質監測、長尾滿意度過度採樣、路由信心漂移追蹤。通用教訓:省下的錢在儀表板看得見,代價卻由看不見路由決策的下游使用者承擔;靜態測試集會過期,平均分佈會掩蓋邊緣劣化——觀測要看長尾不能只看均值。

其他陷阱

  • 大廠也會踩路由基礎設施錯誤:Anthropic 2026-08 一個 bug 把 ~0.8% Sonnet 4 請求誤路由到錯配置伺服器,~30% Claude Code 使用者至少收到一則品質下降回應(postmortem)。
  • Semantic cache 的正確性/安全陷阱:false positive 匹配、快取污染(構造 embedding 碰撞)、錯誤被放大(錯答案被後續相似查詢重複拿到)、無 TTL 讓過時答案永存。要加品質閘門、回饋淘汰、輸入清洗。

主張 vs 可佐證

  • 可佐證(官方/一手):prompt caching 定價、Batch API 5 折、routing/cascading 分類法、Cluster-Route-Escalate 97–99% 保留、RouterArena benchmark、Anthropic postmortem、Pareto Trap 案例(已驗證原文)。
  • 主張/量級參考:「路由+快取+批次疊加降 60–80%」等區間是多篇部落格收斂的粗略共識,統計口徑不一,當量級參考而非精確保證;各廠商「降 40–66%」案例皆自述。
  • 注意:RouteLLM 常被引的「85%/45%」只對 GPT-4 Turbo vs Mixtral 8x7B 這一組配對成立,別當通用。

成本問題在 Agentic Workflow(多 agent token 4–15×)與 MCP 整合(工具定義 token 成本)裡尤其尖銳;快取前綴設計呼應 Context Engineering;毛利與商業模式見 AI-Native 產品AI 時代護城河