AI 安全與 Guardrails：防注入、防越權、防外洩

當 AI 能「動手」（讀資料、發請求、改系統），prompt injection、agent 權限過大、資料外洩就成了 2026 年最真實的新攻擊面——而防禦的重點不是讓模型更會分辨，是架構上讓危險條件不要同時齊備。懂 sandbox、最小權限、輸入消毒的人極度稀缺。

核心威脅框架

Lethal Trifecta（Simon Willison）：三個條件同時存在才會爆炸——①存取私有資料 ②暴露於不可信內容（網頁、issue、附件）③具備外部通訊能力。任兩者安全，三者齊備攻擊者就能讀出私有資料並外送。核心論點：LLM 無法可靠區分「這是指令」還是「這是要處理的資料」（兩者都是同一串 token），所以防禦要從架構下手，不是靠模型自律（simonwillison.net）。
OWASP LLM Top 10：LLM01 Prompt Injection 連兩版第一；LLM06 Excessive Agency（工具比需要的多、權限比需要的高、缺人類監督）。2026 年另有專門的 Agentic Applications Top 10（Goal Hijack、Tool Misuse、Identity & Privilege Abuse、Memory & Context Injection…）。
Willison 對「guardrail 廠商宣稱擋下 95% 攻擊」明確懷疑——安全語境下「95%」等於失敗，因為攻擊者只需要成功一次。

最小權限下沉到「任務層級」：每個 agent 給專屬身分（非共用服務帳號）、窄範圍工具 allowlist、任務綁定會過期的憑證——這正是系統化除錯裡 PocketOS 刪庫事故的根本教訓（agent 遇阻自主找到過度授權的 token）。
三層 sandbox（Anthropic「How we contain Claude」，一手）：環境層（process sandbox/VM/egress 控制，硬邊界）+ 模型層（system prompt/分類器，機率性、非硬邊界）+ 外部內容層（工具權限/MCP 稽核）。Claude Code 用 OS 層 sandbox（macOS Seatbelt、Linux bubblewrap）+ approval gate，據稱讓權限詢問降 84%。關鍵教訓：最嚴重失效多出在「自己造的元件」（自訂 proxy、設定解析），而非 gVisor/seccomp 這類久經考驗的基礎設施。
Human-in-the-loop 核准閘門：對「難以復原」（刪除、金流）與「外部可見」（發信、發文）的動作強制核准；對工具打風險分級觸發自動化行為。
輸入消毒分層：regex（結構固定的 PII，次毫秒）→ NER（語境實體，5–50ms）→ LLM-based（需語境判斷，只用在高風險路徑）；高風險路由把消毒放 pre-guardrail（工具呼叫前），而非事後補救。
Guardrails 框架：NeMo Guardrails（NVIDIA，五種 rail：input/dialog/retrieval/execution/output）+ Llama Guard（內容分類）可互補。

EchoLeak / CVE-2025-32711（Microsoft 365 Copilot，CVSS 9.3）：零點擊 prompt injection——攻擊者寄一封內嵌隱藏 payload 的 email，使用者之後與 Copilot 互動時 RAG 把它拉進 context 觸發外洩，全程無需互動。這是 lethal trifecta 三要件齊備的教科書範例（微軟已修補，無已知在野利用）。
CVE-2025-53773（GitHub Copilot，PR 描述隱藏注入導致 RCE，CVSS 9.6）。
MCP Tool Poisoning：把惡意指令藏進工具 metadata，中毒工具會「感染」所有呼叫它的 agent——呼應 MCP 整合。

Guardrail 可被繞過：對主流防護系統做規避測試，字元注入與對抗式 ML 可達近 100% 規避成功率（arXiv:2504.11168）；「Sockpuppeting」在回應注入「看似已同意」的前綴，零優化、一行程式碼，Qwen-8B 上 95% 成功率。
Over-blocking 會被人類繞過：Anthropic 自家數據——使用者核准了約 93% 的權限詢問，核准疲勞讓 human-in-the-loop 退化成形式主義。這是 Willison「95% 防護等於失敗」的另一面：不是模型防不住，是人類審核機制本身也會被疲勞攻破。
官方 reference servers 是教育範例、非生產就緒，別原封搬上生產。

可佐證：Lethal trifecta 框架；OWASP Top 10；Anthropic 三層 sandbox（一手）；EchoLeak/CVE 有編號可對照 NVD；guardrail 繞過有學術論文。
需查證：Moltbook 150 萬 agent 外洩、墨西哥政府 1.5 億筆稅務外洩等聳動案例多來自安全廠商聚合部落格，引用鏈常止於另一篇部落格而非官方公告/CVE——使用前務必回溯到 CVE/NVD 或廠商安全公告。
判準：有 CVE + NVD/廠商公告 → 可佐證；有可重現論文 → 可佐證（但常先於同行評審）；僅單一部落格無法回溯 → 主張。

安全是所有「讓 AI 動手」的前提：見 MCP 整合（工具描述即攻擊面）、Agentic Workflow（agent 權限）、系統化除錯（自主排障的權限邊界）。工程實作的整體治理見 AI Agentic SaaS。