很多人把 Agent Memory 當成「長上下文不夠用時的補丁」,作者 @wquguru 開篇就把這個誤解拆掉:Memory 不是長上下文的替代品,兩者解的根本不是同一個問題。
作者的三分法
原文把一個 agent 會用到的「資訊來源」分成三種角色,並強調分工清晰:
- Context window 是工作台:當前任務需要的材料全攤在上面。256K、1M 甚至更長的 context window 已是標配,它讓模型在這一輪能同時看見更多檔案、日誌、證據,避免頻繁摘要帶來的資訊損耗。但它解決的永遠是「這一輪能裝下多少」。
- RAG/搜尋是外部資料庫:按需調用,需要時把片段撈進來。
- Memory 是狀態層:跨會話、跨專案、跨 agent 持久存在。它解的是「下一輪醒來時,agent 還記不記得上一次為什麼那樣做」。
作者用三個例子把差別講得很具體:一個只有長上下文、沒有 memory 的 coding agent,下週重開 session 照樣踩同一個測試環境的坑;一個只有 RAG 的 research agent 查得到舊資料,卻不知道哪條已被證偽、哪個來源在這主題上不可靠;一個只有 transcript 的交易 agent 看得到所有日誌,卻分不清哪些已升格成不變量、哪些只是一次偶然。
他下的結論是:Memory 的核心價值不在「存得多」,而在把過去分層——哪些該常駐、哪些該搜索、哪些該歸檔、哪些該變成以後可複用的技能。長上下文讓 agent 在當前任務看得更全,Memory 讓 agent 在下一次任務起點更高。
業界脈絡與對照
這個「context = RAM、長期記憶 = disk」的比喻不是作者首創,而是 agent memory 領域的共同直覺,最早可追溯到 2023 年的 MemGPT:它把 LLM 的 context 當成虛擬記憶來主動管理——什麼留在 context(RAM)、什麼換頁到 recall memory(disk cache)、什麼進冷儲存(archive)。作者的三分法本質上是這套「記憶階層」思想在 2026 年工具生態下的重新表述。
值得補充的客觀區分是:「長上下文 vs 記憶」並非互斥的二選一,而是成本與時間尺度不同的兩個維度。長上下文是單輪內的容量問題(一次推理付一次 token 成本、任務結束即釋放),記憶是跨輪的狀態持久化問題(寫一次、之後反覆載入)。業界另一個常見提醒是:如果你的「記憶」需求其實只是對文件做檢索,那麼在動用任何記憶層之前,單純的 RAG 往往就夠了——記憶層該留給「需要記住互動,而不只是記住文件」的場景。這一點與作者的分工觀點一致,可視為業界共識。
延伸
- 下一層:記憶要分層,第一層就是寫死的規則 → 規則記憶:Agent 的工作憲法
- 全景與閱讀路徑 → AI memory 專欄首頁