AI Agentic SaaS — 怎樣實際用 AI 建造服務

把 LLM 塞進 SaaS 產品是一回事；讓它在生產環境可靠地跑、讓成本可預測、讓用戶信任它——是另一回事。這個專欄從工程實作層面，拆解「用 AI 建造服務」的真實問題：架構、可靠性、UX、計費、幻覺控制、資安，以及什麼情境下壓根不該用 LLM。

所有篇章盡量區分「可佐證的工程事實」（有公開文件、量測數據、已上線案例可查）與「最佳實踐主張」（圈內普遍接受但缺乏嚴格對照的做法），並且誠實寫出取捨與目前的不確定性。

學習路徑

什麼是 Agentic SaaS — 定義、與傳統 SaaS 的本質差別、Copilot／Agent／Autopilot 三種程度，以及從 prompt → tool use → agent loop → 多步驟工作流的典型建構路徑
Orchestration 與 Agent Loop — 編排模式（順序、平行、階層）、LangGraph 圖形狀態機、tool calling 的運作機制、非同步佇列、重試與冪等性
RAG、記憶與知識庫 — 檢索增強生成的架構、向量庫分塊策略、記憶分層（in-context vs vector vs key-value），以及知識庫的新鮮度問題
結構化輸出與 LLM 可靠性 — JSON mode vs Structured Outputs（Strict Mode）的真實失敗率、parsing 失敗的 retry/repair 策略、function calling 的常見坑
Streaming 與 Agentic UIUX — SSE 串流、進度揭示模式、「Slow AI」設計模式、human-in-the-loop 確認、可中斷／可重試的體驗設計
計費、成本控制與毛利 — token-based 計價的本質、metering 架構設計、成本波動風險、把不可預測成本轉成可預測定價的策略
幻覺、Evals 與品質保證 — 幻覺成因與降低手段（RAG grounding、citation 強制、約束生成）、Braintrust／PromptFoo evals 框架、guardrails、何時不該用 LLM
限制、取捨與 Demo 不等於 Production — context 上限、延遲現實、非決定性、prompt injection 資安（OWASP LLM01）、資料隱私合規，以及大量 demo 上不了 production 的真實原因

MCP（Model Context Protocol）在 2025-11-25 將傳輸層從 HTTP+SSE 改為 Streamable HTTP，多租戶 SaaS 中如何做 per-tenant tool exposure 的授權隔離？目前有哪些已知工程模式？
Structured Outputs「Strict Mode」在動態或遞迴 schema（union types、self-referential structures）上有已知限制；這些限制的實際影響範圍與工程繞過方案是什麼？
RAG 降低幻覺 71% 的數字來自 2025 多個 benchmark 彙整，但各 benchmark 任務類型差異極大；在「開放式知識問答」vs「受控文件抽取」場景下，實際降幅差多少？
Token-based 計費轉向 task quota 趨勢中，如何精確對映「一個 task」的 token 消耗？有沒有可複現的 metering 對照基準？
Prompt injection 被 OpenAI 在 2025 年底承認「AI browsers 可能永遠無法完全解決」，現有的多層防禦在哪些攻擊場景下會系統性失效？

2026-06-30 — 建立專欄。以官方文件（Anthropic、OpenAI、LangChain）、工程部落格（TianPan.co、Braintrust、Kinde、Traceloop、Rotascale）及 OWASP GenAI Top 10 為主要一手來源，建立 1 篇 hub＋8 篇原子筆記；全程標示工程事實與最佳實踐主張的分界。