記憶(Memory)在 2026 年正式成為 AI Agent 的一級架構元件——它有自己的 benchmark、自己的研究文獻、不同方法之間可量測的效能差距,還有一整圈專門為它而生的工具生態。簡單講,記憶就是把 LLM 從「每開一個新對話就失憶」的金魚,升級成能跨 session 累積經驗、學習、適應使用者的長期助手。今天就把這套記憶架構的分類、原理與落地難題一次學清楚。

📖 學(核心)

先抓住一個根本對比:無記憶 vs 有記憶。 純粹的 LLM 是無狀態(stateless)的,每次推論只看得到當下塞進上下文視窗的東西,對話一結束就什麼都不記得。記憶層做的事,就是在對話過程中把重要事實抽取出來、存進外部儲存,下次新 session 開始時再依語意相似度把相關記憶撈回來。這個動作把 Agent 從「每次都從零開始」變成「會帶著過去的你」。

記憶第一層分類:短期 vs 長期。 短期記憶就是上下文視窗(context window)與 KV cache——容量有限、會話結束即蒸發,相當於人的工作記憶。長期記憶則寫進外部儲存,最常見的是向量資料庫(vector DB,靠語意相似度檢索)與知識圖譜(knowledge graph,靠實體與關係結構化儲存)。2026 年的共識是:複雜任務改用「向量+圖譜」的混合儲存最穩,單純場景純向量仍然夠用。

記憶第二層分類:四種功能型記憶。 業界這兩年收斂出一套對應認知科學的分類:工作記憶(當下任務的暫存)、情節記憶(episodic,記得「上次我們聊過什麼、發生過什麼事」)、語意記憶(semantic,記住事實與偏好,例如「使用者吃素」)、程序記憶(procedural,學會的行為與規則,例如 Agent 依回饋改寫自己的 system prompt)。像 LangMem 這類框架可以同時支援後三種,這是判斷一個記憶系統夠不夠成熟的好指標。

記憶是「情境工程(context engineering)」的延伸與新典範。 如果說 prompt engineering 回答的是「怎麼問」,那 context engineering 回答的是「Agent 在出手的那一刻,到底知道什麼、看到什麼、記得什麼」——也就是對 Agent 狀態(state)的工程。記憶正是這套狀態工程裡最難、也最關鍵的一塊:你不是把所有歷史一股腦塞進 context(那既貴又雜訊多),而是精準地「在對的時機,撈對的記憶」。

Benchmark 已經把方法差距量化出來。 在常用的 LoCoMo 長對話評測上,MAGMA(多圖譜代理記憶架構)以 0.7 的 judge score 領先,超越 Nemori(0.59)、A-MEM(0.58)、MemoryOS(0.553)。效率面,Mem0 在 2026 年 4 月的論文宣稱其記憶層相較「硬塞全部上下文」可降 91% 的 p95 延遲、省 90% token 成本,並比 OpenAI 預設記憶法再好 26%。重點不是記住哪個數字,而是理解:選對記憶架構,省錢、加速、又更準。

市場面:Agentic AI 正在把記憶體(硬體)需求推上新高。 AI 重心從「訓練」轉向「以推論為核心的 Agentic AI」後,請求從單次問答變成連續迭代循環,對排程、預處理與記憶管理的需求結構性放大。TrendForce 因此大幅上修預測:2026 年全球記憶體市場從原估 5,516 億美元上修到 8,893 億美元,2027 年更上看超過 1.28 兆美元;HBM 與 DDR5 同步吃緊。軟體層的「記憶」概念,正實打實轉化成硬體層的 HBM/DRAM 訂單。

別忽略落地的 gap。 生產環境裡記憶仍有三大痛點:檢索準度(撈回不相關或過時的記憶反而干擾判斷)、記憶污染(memory pollution,錯誤或惡意內容被寫進長期記憶後一直影響後續決策)、隱私(長期儲存使用者資料的合規與安全)。最難的開放問題是跨 session 身分辨識、大規模的時間抽象,以及記憶過時(staleness)。記憶不是加上去就好,定期「整理、淘汰、校正」是必修課。

🧠 記

  • 一句話定義:記憶=讓無狀態的 LLM 變成能跨 session 學習與適應的有狀態 Agent。
  • 兩層分類口訣:先分「短期(context/KV cache)vs 長期(向量庫/知識圖譜)」,再分「工作、情節(episodic)、語意(semantic)、程序(procedural)」四功能。
  • 典範定位:記憶是 context engineering 的延伸——重點是「在對的時機撈對的記憶」,不是硬塞歷史。
  • 架構選擇:複雜任務用「向量+圖譜」混合;簡單場景純向量即可。
  • 三大坑:檢索準度、記憶污染、隱私;外加跨 session 身分、記憶過時。
  • 市場連動:Agentic AI → 推論迭代暴增 → HBM/DRAM 需求結構性上升(TrendForce 上修)。

✍️ 實踐

  1. 用一張表寫下你目前在用的某個 AI 助手,分別填入它的「短期記憶」與「長期記憶」各是什麼(或哪一格其實是空的),10 分鐘內完成。
  2. 挑一個你常重複交代的偏好(例如「回答用繁體中文、條列、給範例」),明確存成一條「語意記憶」(寫進該工具的 memory/自訂指令),並在下個新對話驗證它有沒有被記住。
  3. 設計一個 3 題小測試衡量記憶檢索準度:問 3 個只有「記得前文」才答得對的問題,記錄答對幾題,作為你的記憶 baseline 分數。
  4. 讀完延伸連結中的 Mem0「State of AI Agent Memory 2026」,用三句話寫下「向量 vs 圖譜 vs 混合」你會在什麼情境各選哪個。

🔗 延伸學習


💬 想深入?複製下面這段到 AI(ChatGPT、Claude…),再打上你的問題

你是我的「AI」學習教練。我今天在學的主題是「AI Agent 記憶」,重點包括:短期記憶 vs 長期記憶、四種功能型記憶(工作、情節、語意、程序)、記憶是 context engineering 的新典範、生產落地的三大 gap(檢索準度、記憶污染、隱私)。請用淺白、可操作的方式回答我接下來的問題,需要時給例子和步驟。我的問題是:

↑ 複製整段貼到 AI,最後接上你的問題即可。