當 AI 能「動手」(讀資料、發請求、改系統),prompt injection、agent 權限過大、資料外洩就成了 2026 年最真實的新攻擊面——而防禦的重點不是讓模型更會分辨,是架構上讓危險條件不要同時齊備。 懂 sandbox、最小權限、輸入消毒的人極度稀缺。
核心威脅框架
- Lethal Trifecta(Simon Willison):三個條件同時存在才會爆炸——①存取私有資料 ②暴露於不可信內容(網頁、issue、附件)③具備外部通訊能力。任兩者安全,三者齊備攻擊者就能讀出私有資料並外送。核心論點:LLM 無法可靠區分「這是指令」還是「這是要處理的資料」(兩者都是同一串 token),所以防禦要從架構下手,不是靠模型自律(simonwillison.net)。
- OWASP LLM Top 10:LLM01 Prompt Injection 連兩版第一;LLM06 Excessive Agency(工具比需要的多、權限比需要的高、缺人類監督)。2026 年另有專門的 Agentic Applications Top 10(Goal Hijack、Tool Misuse、Identity & Privilege Abuse、Memory & Context Injection…)。
- Willison 對「guardrail 廠商宣稱擋下 95% 攻擊」明確懷疑——安全語境下「95%」等於失敗,因為攻擊者只需要成功一次。
防禦方法論
- 最小權限下沉到「任務層級」:每個 agent 給專屬身分(非共用服務帳號)、窄範圍工具 allowlist、任務綁定會過期的憑證——這正是 系統化除錯 裡 PocketOS 刪庫事故的根本教訓(agent 遇阻自主找到過度授權的 token)。
- 三層 sandbox(Anthropic「How we contain Claude」,一手):環境層(process sandbox/VM/egress 控制,硬邊界)+ 模型層(system prompt/分類器,機率性、非硬邊界)+ 外部內容層(工具權限/MCP 稽核)。Claude Code 用 OS 層 sandbox(macOS Seatbelt、Linux bubblewrap)+ approval gate,據稱讓權限詢問降 84%。關鍵教訓:最嚴重失效多出在「自己造的元件」(自訂 proxy、設定解析),而非 gVisor/seccomp 這類久經考驗的基礎設施。
- Human-in-the-loop 核准閘門:對「難以復原」(刪除、金流)與「外部可見」(發信、發文)的動作強制核准;對工具打風險分級觸發自動化行為。
- 輸入消毒分層:regex(結構固定的 PII,次毫秒)→ NER(語境實體,5–50ms)→ LLM-based(需語境判斷,只用在高風險路徑);高風險路由把消毒放 pre-guardrail(工具呼叫前),而非事後補救。
- Guardrails 框架:NeMo Guardrails(NVIDIA,五種 rail:input/dialog/retrieval/execution/output)+ Llama Guard(內容分類)可互補。
真實案例(可佐證)
- EchoLeak / CVE-2025-32711(Microsoft 365 Copilot,CVSS 9.3):零點擊 prompt injection——攻擊者寄一封內嵌隱藏 payload 的 email,使用者之後與 Copilot 互動時 RAG 把它拉進 context 觸發外洩,全程無需互動。這是 lethal trifecta 三要件齊備的教科書範例(微軟已修補,無已知在野利用)。
- CVE-2025-53773(GitHub Copilot,PR 描述隱藏注入導致 RCE,CVSS 9.6)。
- MCP Tool Poisoning:把惡意指令藏進工具 metadata,中毒工具會「感染」所有呼叫它的 agent——呼應 MCP 整合。
陷阱
- Guardrail 可被繞過:對主流防護系統做規避測試,字元注入與對抗式 ML 可達近 100% 規避成功率(arXiv:2504.11168);「Sockpuppeting」在回應注入「看似已同意」的前綴,零優化、一行程式碼,Qwen-8B 上 95% 成功率。
- Over-blocking 會被人類繞過:Anthropic 自家數據——使用者核准了約 93% 的權限詢問,核准疲勞讓 human-in-the-loop 退化成形式主義。這是 Willison「95% 防護等於失敗」的另一面:不是模型防不住,是人類審核機制本身也會被疲勞攻破。
- 官方 reference servers 是教育範例、非生產就緒,別原封搬上生產。
主張 vs 可佐證
- 可佐證:Lethal trifecta 框架;OWASP Top 10;Anthropic 三層 sandbox(一手);EchoLeak/CVE 有編號可對照 NVD;guardrail 繞過有學術論文。
- 需查證:Moltbook 150 萬 agent 外洩、墨西哥政府 1.5 億筆稅務外洩等聳動案例多來自安全廠商聚合部落格,引用鏈常止於另一篇部落格而非官方公告/CVE——使用前務必回溯到 CVE/NVD 或廠商安全公告。
- 判準:有 CVE + NVD/廠商公告 → 可佐證;有可重現論文 → 可佐證(但常先於同行評審);僅單一部落格無法回溯 → 主張。
安全是所有「讓 AI 動手」的前提:見 MCP 整合(工具描述即攻擊面)、Agentic Workflow(agent 權限)、系統化除錯(自主排障的權限邊界)。工程實作的整體治理見 AI Agentic SaaS。