把 LLM 塞進 SaaS 產品是一回事;讓它在生產環境可靠地跑、讓成本可預測、讓用戶信任它——是另一回事。這個專欄從工程實作層面,拆解「用 AI 建造服務」的真實問題:架構、可靠性、UX、計費、幻覺控制、資安,以及什麼情境下壓根不該用 LLM。

所有篇章盡量區分「可佐證的工程事實」(有公開文件、量測數據、已上線案例可查)與「最佳實踐主張」(圈內普遍接受但缺乏嚴格對照的做法),並且誠實寫出取捨與目前的不確定性。

學習路徑

  1. 什麼是 Agentic SaaS — 定義、與傳統 SaaS 的本質差別、Copilot/Agent/Autopilot 三種程度,以及從 prompt → tool use → agent loop → 多步驟工作流的典型建構路徑
  2. Orchestration 與 Agent Loop — 編排模式(順序、平行、階層)、LangGraph 圖形狀態機、tool calling 的運作機制、非同步佇列、重試與冪等性
  3. RAG、記憶與知識庫 — 檢索增強生成的架構、向量庫分塊策略、記憶分層(in-context vs vector vs key-value),以及知識庫的新鮮度問題
  4. 結構化輸出與 LLM 可靠性 — JSON mode vs Structured Outputs(Strict Mode)的真實失敗率、parsing 失敗的 retry/repair 策略、function calling 的常見坑
  5. Streaming 與 Agentic UIUX — SSE 串流、進度揭示模式、「Slow AI」設計模式、human-in-the-loop 確認、可中斷/可重試的體驗設計
  6. 計費、成本控制與毛利 — token-based 計價的本質、metering 架構設計、成本波動風險、把不可預測成本轉成可預測定價的策略
  7. 幻覺、Evals 與品質保證 — 幻覺成因與降低手段(RAG grounding、citation 強制、約束生成)、Braintrust/PromptFoo evals 框架、guardrails、何時不該用 LLM
  8. 限制、取捨與 Demo 不等於 Production — context 上限、延遲現實、非決定性、prompt injection 資安(OWASP LLM01)、資料隱私合規,以及大量 demo 上不了 production 的真實原因

🔍 待解問題 / 持續追蹤

  • MCP(Model Context Protocol)在 2025-11-25 將傳輸層從 HTTP+SSE 改為 Streamable HTTP,多租戶 SaaS 中如何做 per-tenant tool exposure 的授權隔離?目前有哪些已知工程模式?
  • Structured Outputs「Strict Mode」在動態或遞迴 schema(union types、self-referential structures)上有已知限制;這些限制的實際影響範圍與工程繞過方案是什麼?
  • RAG 降低幻覺 71% 的數字來自 2025 多個 benchmark 彙整,但各 benchmark 任務類型差異極大;在「開放式知識問答」vs「受控文件抽取」場景下,實際降幅差多少?
  • Token-based 計費轉向 task quota 趨勢中,如何精確對映「一個 task」的 token 消耗?有沒有可複現的 metering 對照基準?
  • Prompt injection 被 OpenAI 在 2025 年底承認「AI browsers 可能永遠無法完全解決」,現有的多層防禦在哪些攻擊場景下會系統性失效?

🕒 更新紀錄

  • 2026-06-30 — 建立專欄。以官方文件(Anthropic、OpenAI、LangChain)、工程部落格(TianPan.co、Braintrust、Kinde、Traceloop、Rotascale)及 OWASP GenAI Top 10 為主要一手來源,建立 1 篇 hub+8 篇原子筆記;全程標示工程事實與最佳實踐主張的分界。