長上下文、RAG 與記憶的分工

很多人把 Agent Memory 當成「長上下文不夠用時的補丁」，作者 @wquguru 開篇就把這個誤解拆掉：Memory 不是長上下文的替代品，兩者解的根本不是同一個問題。

作者的三分法

原文把一個 agent 會用到的「資訊來源」分成三種角色，並強調分工清晰：

Context window 是工作台：當前任務需要的材料全攤在上面。256K、1M 甚至更長的 context window 已是標配，它讓模型在這一輪能同時看見更多檔案、日誌、證據，避免頻繁摘要帶來的資訊損耗。但它解決的永遠是「這一輪能裝下多少」。
RAG／搜尋是外部資料庫：按需調用，需要時把片段撈進來。
Memory 是狀態層：跨會話、跨專案、跨 agent 持久存在。它解的是「下一輪醒來時，agent 還記不記得上一次為什麼那樣做」。

作者用三個例子把差別講得很具體：一個只有長上下文、沒有 memory 的 coding agent，下週重開 session 照樣踩同一個測試環境的坑；一個只有 RAG 的 research agent 查得到舊資料，卻不知道哪條已被證偽、哪個來源在這主題上不可靠；一個只有 transcript 的交易 agent 看得到所有日誌，卻分不清哪些已升格成不變量、哪些只是一次偶然。

他下的結論是：Memory 的核心價值不在「存得多」，而在把過去分層——哪些該常駐、哪些該搜索、哪些該歸檔、哪些該變成以後可複用的技能。長上下文讓 agent 在當前任務看得更全，Memory 讓 agent 在下一次任務起點更高。

業界脈絡與對照

這個「context = RAM、長期記憶 = disk」的比喻不是作者首創，而是 agent memory 領域的共同直覺，最早可追溯到 2023 年的 MemGPT：它把 LLM 的 context 當成虛擬記憶來主動管理——什麼留在 context（RAM）、什麼換頁到 recall memory（disk cache）、什麼進冷儲存（archive）。作者的三分法本質上是這套「記憶階層」思想在 2026 年工具生態下的重新表述。

值得補充的客觀區分是：「長上下文 vs 記憶」並非互斥的二選一，而是成本與時間尺度不同的兩個維度。長上下文是單輪內的容量問題（一次推理付一次 token 成本、任務結束即釋放），記憶是跨輪的狀態持久化問題（寫一次、之後反覆載入）。業界另一個常見提醒是：如果你的「記憶」需求其實只是對文件做檢索，那麼在動用任何記憶層之前，單純的 RAG 往往就夠了——記憶層該留給「需要記住互動，而不只是記住文件」的場景。這一點與作者的分工觀點一致，可視為業界共識。

延伸

下一層：記憶要分層，第一層就是寫死的規則 → 規則記憶：Agent 的工作憲法
全景與閱讀路徑 → AI memory 專欄首頁

我的知識庫

探索

長上下文、RAG 與記憶的分工

作者的三分法

業界脈絡與對照

延伸

關係圖譜

目錄

反向連結