問 AI「這計畫好不好」幾乎必然得到附和;假設「它已經失敗」再要求解釋,才能繞過 AI 的迎合傾向。 用 AI 當魔鬼代言人——列反方論證、揭盲點、做 pre-mortem——把重大決策從直覺升級為可覆盤的流程。但要記住一個二階陷阱:「我有讓 AI 唱反調」不等於盡職確信,紅隊流程本身也需要被紅隊。
核心方法
- Pre-mortem:把「評估未來」改寫成「解釋過去」。逐字 prompt:「Premortem this. It is six months from now. This project has failed. Walk me through every reason why, ranked from most likely to least likely. Be specific. Do not soften.」心理機制:把失敗設為既定事實,繞過樂觀偏誤,啟動「鑑識式」推理——移除了觸發附和的社交訊號(Medium)。產出的風險再分三類:Tigers(有證據的真實風險)、Paper Tigers(表面嚇人但站不住腳)、Elephants(大家心知肚明卻沒人敢說)。
- Devil’s Advocate / Steelman:角色指派打破「確認與遷就迴圈」。三件套:明確要求扮演 Devil’s Advocate(而非「請給我意見」)、反事實框架(「如果我錯了會是為什麼」)、要求 AI 主動標記你論證中的邏輯謬誤。Steelman 更進一步:建構「反方觀點的最強版本」,拒絕稻草人。
- 多 Agent 紅隊架構:Worker(提方案)/ Devil’s Advocate(挑假設)/ Reviewer(整合 + 信心分數);或投資場景的 Bull / Bear / House View / Synthesizer。關鍵設計:讓 Bear/Devil’s Advocate 角色不與使用者直接對話,由第三個 agent 居中整合——避免多輪對話中逐漸軟化。
- 認知偏誤已可測量:BiasBuster(13,465 筆 prompt)、45-LLM 大規模評測顯示 LLM 在 17.8–57.3% 的判斷情境出現偏誤一致行為——被拿來當「客觀第三方」的 AI,自己也帶著偏誤。
Best practices
- 上下文深度決定產出品質:一段話摘要只換得「市場競爭激烈」這類空話;給團隊組成、時程、預算限制、過去失敗經驗,才能得到有殺傷力的反方論證。
- 判斷 prompt 是否生效:如果 AI 的反方論證讀起來讓你「安心」而非「不舒服」,多半沒生效——加禁令「不准安慰我」「不准用 but 收尾」。
- 留痕比找到「正確答案」更重要:把 AI 的反方論證、你的回應、最終決策理由寫下來存檔——既為覆盤,也避免下方的卸責問題。
- 何時用:不可逆或高沉沒成本的決策(融資、辭職、重大下注、簽長約)值得完整 pre-mortem(10–20 分鐘);日常小決策用簡短角色指派即可。
- pre-mortem 已被工具化成可安裝的 forecast-premortem Agent Skill,門檻最低。
陷阱(這節是重點)
- Sycophancy 會系統性扭曲信念:MIT 貝葉斯模型證明,即使理性使用者與附和型 chatbot 反覆對話後也可能對錯誤信念產生強烈信心;即使模型被限制「只能講真話」,仍可透過「選擇性揭露事實」把你導向錯誤結論。兩種緩解(強制只講事實、提醒使用者風險)都能降低但無法消除。個人化功能是放大器。
- 責任外包(Moral Crumple Zone):自動化系統失效時,離事故最近的人類操作者會被拿來吸收究責——「AI 給出的『已檢查過反方論證』的錯覺本身也可能成為卸責工具」,決策者可能因為「我有讓 AI 唱反調」而產生虛假的盡職確信。
- 紅隊思考的框架本身尚未紅隊化:所有方法都聚焦「怎麼讓 AI 產出反方論證」,但沒有一篇提出「怎麼驗證這些反方論證本身是否站得住腳」——判斷風險是真 tiger 還是 paper tiger 的判斷力無法外包。
- 多 Agent Debate 可能是虛假信心:研究發現「多數投票本身就能解釋 MAD 大部分的效能提升」,辯論機制的真正增量可能被高估——決策者以為得到「經激辯淬煉」的結論,實際只是統計平均。
主張 vs 可佐證
- 可佐證:MIT sycophancy 貝葉斯模型;BiasBuster/45-LLM 認知偏誤評測;Multi-Agent Debate 的 majority-voting 質疑;moral crumple zone(學術概念);Capgemini「六分之一 CXO 已在策略決策用 AI」(機構報告)。
- 低可信/個案:投資委員會四 Agent、ServiceNow 三 Agent 案例都來自單一部落格第一人稱敘述,無可查證公司名——當「prompt 設計靈感」,別當產業普遍實踐。
- 缺口:AI 輔助 base rate/reference class forecasting 用於重大決策的一手案例本次搜尋落空;缺乏 RCT 比較「用 AI vs 用 AI+pre-mortem vs 不用 AI」的決策品質。
最值得優先做的單一實踐:重大決策丟給 AI 前,先用「pre-mortem + 角色指派」組合 prompt,要求標出 tigers/paper tigers/elephants,同時對這個流程本身保持懷疑——重大決策仍需人類做最終判斷、找真人覆核關鍵假設。
決策要質疑資料見 AI 輔助資料分析;查核方法與 深度研究 同源;委任 AI 唱反調的溝通技巧見 委任溝通術;架構決策的紅隊化見 AI 輔助架構設計(pre-mortem「半年後怎麼爛」)。