AI 记忆技术演进研究

记录 AI/LLM 记忆能力从"无状态"到"全面记忆"的技术转变

演进主线

无状态 LLM(2018-2022)
每次对话都是全新的,512-4K tokens
上下文窗口扩张(2023-2024)
4K → 32K → 128K → 200K
RAG 检索增强(2023-2024)
外部知识库补充上下文,向量数据库兴起
持久记忆(2024-2025)
ChatGPT Memory、Claude Memory,跨会话记住用户
Agent 记忆(2025-2026)
自主 Agent 拥有工作记忆 + 长期存储
全面记忆时代(2026-)
1M+ 上下文 + 持久记忆 + MCP 工具记忆 + Agent 自主管理

关键数字速览

最大上下文窗口
~20,000x
512 → 10M tokens
主流上下文窗口
~250x
4K → 1M tokens
跨会话记忆
0 → 1
从无到标配
MCP 服务器
5,800+
5 个月从 0 到生态
向量数据库
7+
主流方案
记忆框架
从零到生态
Mem0 / Letta / Zep / OpenMemory
核心洞察

1. 上下文窗口不是终极方案 —— 即使有 1M tokens,仍需 RAG 和持久记忆补充

2. 记忆从产品特性变成基础设施 —— MCP 让记忆成为可插拔的标准化层

3. Agent 让记忆从被动变主动 —— AI 自己管理记忆,不再靠用户塞入

4. 多层记忆架构成为共识 —— 工作记忆 + 短期 + 长期,类比人脑

5. 开源追赶速度极快 —— Llama 4 Scout 10M,Qwen 2.5 1M

01 / 上下文窗口演进

从 512 tokens 到 1000 万 tokens,AI 的"工作记忆"扩大了近 20,000 倍

OpenAI GPT 系列

模型发布时间上下文窗口备注
GPT-12018.06512最初的 Transformer LM
GPT-22019.021,0241.5B 参数
GPT-32020.052,048175B 参数,few-shot 涌现
GPT-3.5 / ChatGPT2022.11.304,096聊天界面上线,AI 出圈
GPT-42023.03.148K / 32K多模态,两个上下文版本
GPT-4 Turbo2023.11.06128KDevDay 发布
GPT-4o2024.05.13128K全模态,速度更快
o12024.12.05200K100K 输出 tokens
GPT-4.12025.04.141M含 mini 和 nano 变体
o32025.04200K与 o4-mini 同期

Anthropic Claude 系列

模型发布时间上下文窗口备注
Claude 12023.039K首次 API 发布
Claude 22023.07.11100K从 9K 跳到 100K,里程碑
Claude 2.12023.11.21200K翻倍
Claude 3 家族2024.03.04200KHaiku / Sonnet / Opus
Claude 3.5 Sonnet2024.06.20200K性能超 Opus
Claude 3.7 Sonnet2025.02.25200KExtended Thinking
Claude Opus 42025.05.22200K最强编程模型
Claude Sonnet 4.52025.09.29200K (1M beta)1M Beta 测试
Claude Opus 4.62026.02.051M1M GA,128K 输出
Claude Sonnet 4.62026.02.171M1M GA,64K 输出

Google Gemini 系列

模型发布时间上下文窗口备注
Gemini 1.02023.12.0632KUltra / Pro / Nano
Gemini 1.5 Pro2024.02.151M首个 1M 上下文模型
Gemini 1.5 Pro 扩展2024 年中2MGoogle I/O 翻倍
Gemini 2.0 Flash2024.121MAgentic 时代开启
Gemini 2.5 Flash2025.05.201M混合思考控制

开源模型

模型发布时间上下文窗口系列
LLaMA 12023.022,048Meta Llama
Llama 22023.074,096
Llama 32024.048,192
Llama 3.12024.07128K
Llama 4 Scout2025.0410M
Mistral 7B2023.108K (滑动窗口 32K)Mistral AI
Mixtral 8x7B2023.1232K
Qwen 12023.088K阿里 Qwen
Qwen 2.52024.09128K
Qwen 2.5-1M2025.011M
DeepSeek-V32024.12128KDeepSeek
DeepSeek-R12025.01128K

关键转折点

2023.07 — Claude 2
首次突破 100K,证明长上下文可行
2024.02 — Gemini 1.5 Pro
首个 1M 上下文,开启百万 token 时代
2024.07 — Llama 3.1
开源阵营跟进到 128K
2025.04 — GPT-4.1
OpenAI 进入 1M 时代
2025.04 — Llama 4 Scout
10M tokens,开源超越闭源上下文长度

02 / RAG 技术演进

检索增强生成——让 AI 在有限上下文内"记住"无限知识

核心论文时间线

2017.03 — FAISS
Facebook AI 相似度搜索库,向量检索的基础设施
2020.02 — REALM
Google,检索增强语言模型预训练,可微分检索器
2020.05 — RAG 论文
Facebook/Meta AI,Lewis 等,组合 DPR + BART,奠定 RAG 范式
2022.10 — LangChain
Harrison Chase 创建,让 RAG 管道构建平民化
2023.10 — Self-RAG
LLM 自主决定是否检索、检索什么,通过反射 token 自我评估
2024.01 — Corrective RAG
增加评估器判断检索结果相关性,不相关则触发补充搜索
2024.07 — GraphRAG
Microsoft 开源,用知识图谱增强 RAG,GitHub 10K+ stars

从 Naive 到 Advanced 到 Agentic

Naive RAG(2022-2023)

文档 → 分块 → 向量化 → 存入向量数据库
用户提问 → 向量化 → 相似度搜索 → Top-K → 拼入 Prompt → LLM 生成

问题:检索质量不稳定、缺乏自我纠错、无法处理复杂查询。

Advanced RAG(2023-2024)

方法改进点
Self-RAGLLM 学会自主决定是否检索,通过反射 token 自我评估
CRAG评估器判断相关性,不相关时自动 Web 搜索补充
GraphRAG从文档中提取知识图谱,支持全局摘要查询

Agentic RAG(2024-2025)

用户提问
Agent 路由器
判断是否需要检索、从哪里检索
向量数据库 知识图谱 Web 搜索
Agent 评估器
结果够不够好?需不需要再查?
LLM 生成 → 自检 → 输出

向量数据库生态

数据库创建时间类型特点
FAISS2017.03Facebook,行业基石
Weaviate2018 末开源 DB最早的专用向量搜索数据库
Milvus2019开源 DB分布式架构
Pinecone2019云托管全托管服务,开箱即用
pgvector2021.04PG 扩展给 Postgres 加向量能力
Qdrant2021开源 DBRust 编写,高性能
Chroma2022.10开源 DB$18M 种子轮,开发体验好

RAG vs 长上下文

长上下文

适合 < 1M tokens 的数据量
全局理解好
上下文越长延迟越高
全量 token 计费

RAG

数据量无上限
可能漏检
检索本身很快
只检索相关片段,成本低

结论

不是替代关系。1M 上下文适合"全局理解",RAG 适合"海量知识精准检索"。实际应用中两者经常组合使用。

03 / 持久记忆系统

从"每次对话都是陌生人"到"AI 记住你是谁"

MemGPT / Letta

核心思想:借鉴操作系统虚拟内存

2023.10.12 — MemGPT 论文发布,"Towards LLMs as Operating Systems"

2024.09 — MemGPT 更名为 Letta(MemGPT 变成设计模式名)

主上下文(有限 token)← 类比 RAM
    ↕ 自动换入换出
归档存储(无限)← 类比磁盘

LLM 自主决定什么信息保留在"工作记忆"中,
什么信息归档到长期存储,需要时再调回来。

ChatGPT Memory

2024.02
OpenAI 发布 ChatGPT Memory 功能(测试)
2024.09.05
Memory 向 Free / Plus / Team / Enterprise 开放
2025.04.10
Memory 扩展为参考所有历史对话做个性化
2025.06.03
免费用户也获得轻量级跨会话连续性

Claude 记忆体系

2024.06
Claude Projects 上线 — 持久工作区 + 文档 + 自定义指令
2024.09.12
Team / Enterprise 用户推出记忆功能
2026.03
记忆功能向所有 Claude 用户开放
Claude Code 的记忆系统(开发者工具)

~/.claude/projects/<project>/memory/ 目录存放持久记忆

CLAUDE.md 文件作为项目级和用户级持久指令

自动记忆:积累构建命令、调试经验、架构笔记、代码风格偏好

IDE 记忆系统

Cursor

Cursor Rules(.cursorrules 文件)
社区 Memory Banks 方案
无内置自动记忆

Windsurf

Memories 系统:自动 + 手动
AI 对话中识别重要信息
深层上下文不跨会话持久

记忆框架

框架时间说明
Zep2023基于时序知识图谱,底层用 Graphiti;社区版已停更,转向 Cloud
Mem02024;A 轮 $24M通用 AI 记忆层,自动提取、压缩、检索关键事实;YC 孵化
OpenMemory2025本地持久记忆(基于 MCP),支持多个 AI 客户端

从无到有的转变

2022 以前
完全无状态,每次对话从零开始
2023
MemGPT 提出分层记忆概念(学术)
2024 上半年
ChatGPT Memory + Claude Projects(产品化)
2024 下半年
记忆框架涌现 + IDE 集成记忆
2025
记忆成为标配,MCP 让记忆跨平台
2026
AI 主动管理自己的记忆

04 / 微调与对齐

如果上下文是 AI 的"短期记忆",那微调就是"长期记忆写入"

OpenAI 微调 API 时间线

时间事件
2020-2022GPT-3 微调可用(davinci / curie / babbage / ada)
2023.08.22GPT-3.5 Turbo 微调上线
2023 末-2024 初GPT-4 微调开放(实验性)
2024.08.20GPT-4o 微调 GA($25/M 训练 tokens)
2024.12强化微调(RFT)Alpha,"12 Days of OpenAI"
2025.05RFT GA + GPT-4.1 nano 监督微调

参数高效微调突破

LoRA — 低秩适配(2021.06)
原始权重矩阵 W (d×d)  ← 冻结
           +
低秩分解 ΔW = A(d×r) × B(r×d)  ← 可训练,r << d

训练参数量:从数十亿 → 数百万(减少 99%+)

让普通开发者也能在消费级 GPU 上微调大模型。

QLoRA(2023.05.23)
4-bit 量化模型 + LoRA 适配器
→ 65B 模型在单张 48GB GPU 上微调
→ 成本再降一个数量级

对齐方法演进

时间方法意义
2022.01RLHF强化学习 + 人类反馈,GPT-3 学会遵循指令;成为行业标准
2023.05.29DPO直接偏好优化,跳过奖励模型,比 RLHF 简单得多
2024-2025ORPO / SimPO / KTO在 DPO 基础上继续简化对齐流程

微调 vs 其他记忆方式

维度微调上下文 / RAG持久记忆
写入速度慢(需训练)即时即时
持久性永久(进入参数)会话级 / 检索级跨会话
灵活性
成本
适用场景领域知识、风格实时信息用户偏好
趋势

微调的角色从"主角"变成"专用工具":不再用微调来补充知识(1M 上下文 + RAG 更高效),而是专注于行为和风格的定制。

05 / Agent 记忆架构

从"人类管理 AI 的记忆"到"AI 自己管理自己的记忆"

早期自主 Agent(2023)

Agent上线时间记忆方案
AutoGPT2023.03Pinecone 向量数据库 → 后简化为本地文件。5 个月 100K+ stars
BabyAGI2023.03任务循环 + 向量记忆(Pinecone)
AgentGPT2023.03浏览器端自主 Agent

早期特点:记忆方案粗糙,向量数据库当万能解法,经常"记了但找不到"。

框架记忆模块

LangChain(2022.10 上线)

ConversationBufferMemory 保留全部历史(简单,token 爆炸)

ConversationSummaryMemory LLM 总结历史(省 token,丢细节)

VectorStoreRetrieverMemory 存入向量库,按相关性检索

LangGraph(2024 上线)

基于状态的记忆 + checkpointing 机制

线程级持久化,2025 初长期记忆支持上线

CrewAI(2024)— 四种记忆类型

短期记忆 当前任务上下文

长期记忆 跨任务持久化

实体记忆 关于人/物/概念的结构化信息

程序记忆 "怎么做"的经验积累

Agent SDK

SDK发布时间核心特性
OpenAI Agents SDK2025.03Swarm 生产级演进;Agents / Handoffs / Guardrails / Tools
Claude Agent SDK2025与 Claude Code 同基础设施;文件编辑 + 命令执行 + MCP

核心转变

维度早期(2023)现在(2025-2026)
谁管理记忆开发者硬编码Agent 自主决策
存储方式全塞向量库分层(工作/短期/长期/程序)
检索方式向量相似度多策略混合
跨 Agent 共享不支持MCP 标准化共享
经验学习程序记忆 / auto-memory

06 / MCP 与工具记忆

Model Context Protocol——让记忆跨工具、跨平台流通的开放标准

MCP 时间线

2024.11.25
Anthropic 发布 MCP 开放标准 + Python / TypeScript SDK
2024.11-2025 初
早期采用者:Block、Apollo、Zed、Replit、Codeium、Sourcegraph
2025.04
生态爆发:8M+ 下载5,800+ 服务器300+ 客户端
2025
OpenAI 和 Google DeepMind 采纳 MCP;C# / Java SDK 上线
2025.12
MCP 捐赠给 Linux 基金会下的 AAIF(Anthropic + Block + OpenAI 联合创始)

MCP 如何实现工具记忆

┌─────────────────────────────┐
│          AI 模型             │
│  "用户上次用深色主题"         │
└──────────┬──────────────────┘
           │ MCP 协议(标准化接口)
    ┌──────┼──────┐
    ▼      ▼      ▼
┌──────┐┌──────┐┌──────┐
│文件系统││数据库 ││知识库 │
│Server ││Server││Server│
└──────┘└──────┘└──────┘

Resources(资源)→ 模型可读取的数据
Tools(工具)→ 模型可调用的操作,含写入记忆

记忆相关 MCP 实践

OpenMemory(Mem0, 2025)

本地持久记忆 → MCP Server 暴露读写接口 → 任何 MCP 客户端均可访问

核心价值:在 Claude Desktop 里告诉 AI 的偏好,切换到 Cursor 也能用。记忆不再被锁在单个应用里。

MCP 前 vs 后

维度MCP 之前MCP 之后
记忆归属锁在各应用内跨应用共享
接入方式每个 App 自己写适配器标准协议,写一次到处用
开发成本为每个 AI 工具单独开发一个 Server 覆盖所有
用户体验换工具就丢记忆记忆跟着用户走
生态碎片化5,800+ 服务器统一生态
发布时服务器数
~100
2024.11
5 个月后
5,800+
2025.04
总下载量
8M+
2025.04
客户端数
300+
2025.04

07 / 注意力机制演进

大上下文窗口背后的底层技术支撑——没有这些创新,1M tokens 就只是理论数字

核心问题:O(n^2) 复杂度

4K tokens
1600 万
次注意力计算
128K tokens
163 亿
次注意力计算
1M tokens
1 万亿
次注意力计算

不解决这个问题,长上下文就是空谈。

关键创新时间线

时间创新影响
2017.06原始 Transformer"Attention Is All You Need";O(n^2) 复杂度
2019-2020稀疏注意力Longformer / BigBird;降低复杂度
2022.05FlashAttentionIO 感知精确注意力 + 分块;2-4x 加速
2023FlashAttention-2更好的并行和工作分配
2023.08Ring Attention分块并行,分布到多设备,理论"无限"上下文
2024FlashAttention-3异步计算 + 低精度支持
2024.02Ring Attention 百万级实际验证 1M+ token 处理能力

FlashAttention:最关键的突破

传统注意力

Q, K, V 全在 GPU HBM
  ↓
计算完整 n×n 矩阵
(写回 HBM)
  ↓
与 V 相乘
(再次读写 HBM)

瓶颈:HBM 读写

FlashAttention

Q, K, V 分块
  ↓
切成小块放入 SRAM
  ↓
SRAM 中完成计算
(不写回中间结果)
  ↓
只输出最终结果到 HBM

效果:2-4x 加速,无精度损失

Ring Attention:分布式长上下文

设备 1        设备 2        设备 3        设备 4
┌──────┐    ┌──────┐    ┌──────┐    ┌──────┐
│ Q块1  │    │ Q块2  │    │ Q块3  │    │ Q块4  │
│ K块1  │ →  │ K块1  │ →  │ K块1  │ →  │ K块1  │ → (环形传递)
│ V块1  │    │ V块1  │    │ V块1  │    │ V块1  │
└──────┘    └──────┘    └──────┘    └──────┘

KV 块在设备间环形传递,每个设备只存储自己的 Q 块
→ 上下文长度随设备数线性扩展

技术栈对应关系

上下文里程碑底层技术支撑
4K → 32K模型架构优化(RoPE 位置编码等)
32K → 128KFlashAttention 让训练可行
128K → 1MFlashAttention-2/3 + 稀疏注意力
1M → 10MRing Attention + 分布式计算
趋势

精确注意力没有被抛弃 — FlashAttention 证明通过 IO 优化,精确注意力也能高效。

分布式是终极答案 — Ring Attention 让上下文长度与硬件规模线性相关。

硬件在追赶 — 更大 SRAM、更快 HBM 让长上下文成本持续下降。