AI 记忆技术演进研究
记录 AI/LLM 记忆能力从"无状态"到"全面记忆"的技术转变
演进主线
关键数字速览
1. 上下文窗口不是终极方案 —— 即使有 1M tokens,仍需 RAG 和持久记忆补充
2. 记忆从产品特性变成基础设施 —— MCP 让记忆成为可插拔的标准化层
3. Agent 让记忆从被动变主动 —— AI 自己管理记忆,不再靠用户塞入
4. 多层记忆架构成为共识 —— 工作记忆 + 短期 + 长期,类比人脑
5. 开源追赶速度极快 —— Llama 4 Scout 10M,Qwen 2.5 1M
01 / 上下文窗口演进
从 512 tokens 到 1000 万 tokens,AI 的"工作记忆"扩大了近 20,000 倍
OpenAI GPT 系列
| 模型 | 发布时间 | 上下文窗口 | 备注 |
|---|---|---|---|
| GPT-1 | 2018.06 | 512 | 最初的 Transformer LM |
| GPT-2 | 2019.02 | 1,024 | 1.5B 参数 |
| GPT-3 | 2020.05 | 2,048 | 175B 参数,few-shot 涌现 |
| GPT-3.5 / ChatGPT | 2022.11.30 | 4,096 | 聊天界面上线,AI 出圈 |
| GPT-4 | 2023.03.14 | 8K / 32K | 多模态,两个上下文版本 |
| GPT-4 Turbo | 2023.11.06 | 128K | DevDay 发布 |
| GPT-4o | 2024.05.13 | 128K | 全模态,速度更快 |
| o1 | 2024.12.05 | 200K | 100K 输出 tokens |
| GPT-4.1 | 2025.04.14 | 1M | 含 mini 和 nano 变体 |
| o3 | 2025.04 | 200K | 与 o4-mini 同期 |
Anthropic Claude 系列
| 模型 | 发布时间 | 上下文窗口 | 备注 |
|---|---|---|---|
| Claude 1 | 2023.03 | 9K | 首次 API 发布 |
| Claude 2 | 2023.07.11 | 100K | 从 9K 跳到 100K,里程碑 |
| Claude 2.1 | 2023.11.21 | 200K | 翻倍 |
| Claude 3 家族 | 2024.03.04 | 200K | Haiku / Sonnet / Opus |
| Claude 3.5 Sonnet | 2024.06.20 | 200K | 性能超 Opus |
| Claude 3.7 Sonnet | 2025.02.25 | 200K | Extended Thinking |
| Claude Opus 4 | 2025.05.22 | 200K | 最强编程模型 |
| Claude Sonnet 4.5 | 2025.09.29 | 200K (1M beta) | 1M Beta 测试 |
| Claude Opus 4.6 | 2026.02.05 | 1M | 1M GA,128K 输出 |
| Claude Sonnet 4.6 | 2026.02.17 | 1M | 1M GA,64K 输出 |
Google Gemini 系列
| 模型 | 发布时间 | 上下文窗口 | 备注 |
|---|---|---|---|
| Gemini 1.0 | 2023.12.06 | 32K | Ultra / Pro / Nano |
| Gemini 1.5 Pro | 2024.02.15 | 1M | 首个 1M 上下文模型 |
| Gemini 1.5 Pro 扩展 | 2024 年中 | 2M | Google I/O 翻倍 |
| Gemini 2.0 Flash | 2024.12 | 1M | Agentic 时代开启 |
| Gemini 2.5 Flash | 2025.05.20 | 1M | 混合思考控制 |
开源模型
| 模型 | 发布时间 | 上下文窗口 | 系列 |
|---|---|---|---|
| LLaMA 1 | 2023.02 | 2,048 | Meta Llama |
| Llama 2 | 2023.07 | 4,096 | |
| Llama 3 | 2024.04 | 8,192 | |
| Llama 3.1 | 2024.07 | 128K | |
| Llama 4 Scout | 2025.04 | 10M | |
| Mistral 7B | 2023.10 | 8K (滑动窗口 32K) | Mistral AI |
| Mixtral 8x7B | 2023.12 | 32K | |
| Qwen 1 | 2023.08 | 8K | 阿里 Qwen |
| Qwen 2.5 | 2024.09 | 128K | |
| Qwen 2.5-1M | 2025.01 | 1M | |
| DeepSeek-V3 | 2024.12 | 128K | DeepSeek |
| DeepSeek-R1 | 2025.01 | 128K |
关键转折点
02 / RAG 技术演进
检索增强生成——让 AI 在有限上下文内"记住"无限知识
核心论文时间线
从 Naive 到 Advanced 到 Agentic
Naive RAG(2022-2023)
文档 → 分块 → 向量化 → 存入向量数据库 用户提问 → 向量化 → 相似度搜索 → Top-K → 拼入 Prompt → LLM 生成
问题:检索质量不稳定、缺乏自我纠错、无法处理复杂查询。
Advanced RAG(2023-2024)
| 方法 | 改进点 |
|---|---|
| Self-RAG | LLM 学会自主决定是否检索,通过反射 token 自我评估 |
| CRAG | 评估器判断相关性,不相关时自动 Web 搜索补充 |
| GraphRAG | 从文档中提取知识图谱,支持全局摘要查询 |
Agentic RAG(2024-2025)
向量数据库生态
| 数据库 | 创建时间 | 类型 | 特点 |
|---|---|---|---|
| FAISS | 2017.03 | 库 | Facebook,行业基石 |
| Weaviate | 2018 末 | 开源 DB | 最早的专用向量搜索数据库 |
| Milvus | 2019 | 开源 DB | 分布式架构 |
| Pinecone | 2019 | 云托管 | 全托管服务,开箱即用 |
| pgvector | 2021.04 | PG 扩展 | 给 Postgres 加向量能力 |
| Qdrant | 2021 | 开源 DB | Rust 编写,高性能 |
| Chroma | 2022.10 | 开源 DB | $18M 种子轮,开发体验好 |
RAG vs 长上下文
长上下文
适合 < 1M tokens 的数据量
全局理解好
上下文越长延迟越高
全量 token 计费
RAG
数据量无上限
可能漏检
检索本身很快
只检索相关片段,成本低
不是替代关系。1M 上下文适合"全局理解",RAG 适合"海量知识精准检索"。实际应用中两者经常组合使用。
03 / 持久记忆系统
从"每次对话都是陌生人"到"AI 记住你是谁"
MemGPT / Letta
2023.10.12 — MemGPT 论文发布,"Towards LLMs as Operating Systems"
2024.09 — MemGPT 更名为 Letta(MemGPT 变成设计模式名)
主上下文(有限 token)← 类比 RAM
↕ 自动换入换出
归档存储(无限)← 类比磁盘
LLM 自主决定什么信息保留在"工作记忆"中,
什么信息归档到长期存储,需要时再调回来。
ChatGPT Memory
Claude 记忆体系
~/.claude/projects/<project>/memory/ 目录存放持久记忆
CLAUDE.md 文件作为项目级和用户级持久指令
自动记忆:积累构建命令、调试经验、架构笔记、代码风格偏好
IDE 记忆系统
Cursor
Cursor Rules(.cursorrules 文件)
社区 Memory Banks 方案
无内置自动记忆
Windsurf
Memories 系统:自动 + 手动
AI 对话中识别重要信息
深层上下文不跨会话持久
记忆框架
| 框架 | 时间 | 说明 |
|---|---|---|
| Zep | 2023 | 基于时序知识图谱,底层用 Graphiti;社区版已停更,转向 Cloud |
| Mem0 | 2024;A 轮 $24M | 通用 AI 记忆层,自动提取、压缩、检索关键事实;YC 孵化 |
| OpenMemory | 2025 | 本地持久记忆(基于 MCP),支持多个 AI 客户端 |
从无到有的转变
04 / 微调与对齐
如果上下文是 AI 的"短期记忆",那微调就是"长期记忆写入"
OpenAI 微调 API 时间线
| 时间 | 事件 |
|---|---|
| 2020-2022 | GPT-3 微调可用(davinci / curie / babbage / ada) |
| 2023.08.22 | GPT-3.5 Turbo 微调上线 |
| 2023 末-2024 初 | GPT-4 微调开放(实验性) |
| 2024.08.20 | GPT-4o 微调 GA($25/M 训练 tokens) |
| 2024.12 | 强化微调(RFT)Alpha,"12 Days of OpenAI" |
| 2025.05 | RFT GA + GPT-4.1 nano 监督微调 |
参数高效微调突破
原始权重矩阵 W (d×d) ← 冻结
+
低秩分解 ΔW = A(d×r) × B(r×d) ← 可训练,r << d
训练参数量:从数十亿 → 数百万(减少 99%+)
让普通开发者也能在消费级 GPU 上微调大模型。
4-bit 量化模型 + LoRA 适配器 → 65B 模型在单张 48GB GPU 上微调 → 成本再降一个数量级
对齐方法演进
| 时间 | 方法 | 意义 |
|---|---|---|
| 2022.01 | RLHF | 强化学习 + 人类反馈,GPT-3 学会遵循指令;成为行业标准 |
| 2023.05.29 | DPO | 直接偏好优化,跳过奖励模型,比 RLHF 简单得多 |
| 2024-2025 | ORPO / SimPO / KTO | 在 DPO 基础上继续简化对齐流程 |
微调 vs 其他记忆方式
| 维度 | 微调 | 上下文 / RAG | 持久记忆 |
|---|---|---|---|
| 写入速度 | 慢(需训练) | 即时 | 即时 |
| 持久性 | 永久(进入参数) | 会话级 / 检索级 | 跨会话 |
| 灵活性 | 低 | 高 | 中 |
| 成本 | 高 | 低 | 低 |
| 适用场景 | 领域知识、风格 | 实时信息 | 用户偏好 |
微调的角色从"主角"变成"专用工具":不再用微调来补充知识(1M 上下文 + RAG 更高效),而是专注于行为和风格的定制。
05 / Agent 记忆架构
从"人类管理 AI 的记忆"到"AI 自己管理自己的记忆"
早期自主 Agent(2023)
| Agent | 上线时间 | 记忆方案 |
|---|---|---|
| AutoGPT | 2023.03 | Pinecone 向量数据库 → 后简化为本地文件。5 个月 100K+ stars |
| BabyAGI | 2023.03 | 任务循环 + 向量记忆(Pinecone) |
| AgentGPT | 2023.03 | 浏览器端自主 Agent |
早期特点:记忆方案粗糙,向量数据库当万能解法,经常"记了但找不到"。
框架记忆模块
ConversationBufferMemory 保留全部历史(简单,token 爆炸)
ConversationSummaryMemory LLM 总结历史(省 token,丢细节)
VectorStoreRetrieverMemory 存入向量库,按相关性检索
基于状态的记忆 + checkpointing 机制
线程级持久化,2025 初长期记忆支持上线
短期记忆 当前任务上下文
长期记忆 跨任务持久化
实体记忆 关于人/物/概念的结构化信息
程序记忆 "怎么做"的经验积累
Agent SDK
| SDK | 发布时间 | 核心特性 |
|---|---|---|
| OpenAI Agents SDK | 2025.03 | Swarm 生产级演进;Agents / Handoffs / Guardrails / Tools |
| Claude Agent SDK | 2025 | 与 Claude Code 同基础设施;文件编辑 + 命令执行 + MCP |
核心转变
| 维度 | 早期(2023) | 现在(2025-2026) |
|---|---|---|
| 谁管理记忆 | 开发者硬编码 | Agent 自主决策 |
| 存储方式 | 全塞向量库 | 分层(工作/短期/长期/程序) |
| 检索方式 | 向量相似度 | 多策略混合 |
| 跨 Agent 共享 | 不支持 | MCP 标准化共享 |
| 经验学习 | 无 | 程序记忆 / auto-memory |
06 / MCP 与工具记忆
Model Context Protocol——让记忆跨工具、跨平台流通的开放标准
MCP 时间线
MCP 如何实现工具记忆
┌─────────────────────────────┐
│ AI 模型 │
│ "用户上次用深色主题" │
└──────────┬──────────────────┘
│ MCP 协议(标准化接口)
┌──────┼──────┐
▼ ▼ ▼
┌──────┐┌──────┐┌──────┐
│文件系统││数据库 ││知识库 │
│Server ││Server││Server│
└──────┘└──────┘└──────┘
Resources(资源)→ 模型可读取的数据
Tools(工具)→ 模型可调用的操作,含写入记忆
记忆相关 MCP 实践
本地持久记忆 → MCP Server 暴露读写接口 → 任何 MCP 客户端均可访问
核心价值:在 Claude Desktop 里告诉 AI 的偏好,切换到 Cursor 也能用。记忆不再被锁在单个应用里。
MCP 前 vs 后
| 维度 | MCP 之前 | MCP 之后 |
|---|---|---|
| 记忆归属 | 锁在各应用内 | 跨应用共享 |
| 接入方式 | 每个 App 自己写适配器 | 标准协议,写一次到处用 |
| 开发成本 | 为每个 AI 工具单独开发 | 一个 Server 覆盖所有 |
| 用户体验 | 换工具就丢记忆 | 记忆跟着用户走 |
| 生态 | 碎片化 | 5,800+ 服务器统一生态 |
07 / 注意力机制演进
大上下文窗口背后的底层技术支撑——没有这些创新,1M tokens 就只是理论数字
核心问题:O(n^2) 复杂度
不解决这个问题,长上下文就是空谈。
关键创新时间线
| 时间 | 创新 | 影响 |
|---|---|---|
| 2017.06 | 原始 Transformer | "Attention Is All You Need";O(n^2) 复杂度 |
| 2019-2020 | 稀疏注意力 | Longformer / BigBird;降低复杂度 |
| 2022.05 | FlashAttention | IO 感知精确注意力 + 分块;2-4x 加速 |
| 2023 | FlashAttention-2 | 更好的并行和工作分配 |
| 2023.08 | Ring Attention | 分块并行,分布到多设备,理论"无限"上下文 |
| 2024 | FlashAttention-3 | 异步计算 + 低精度支持 |
| 2024.02 | Ring Attention 百万级 | 实际验证 1M+ token 处理能力 |
FlashAttention:最关键的突破
传统注意力
Q, K, V 全在 GPU HBM ↓ 计算完整 n×n 矩阵 (写回 HBM) ↓ 与 V 相乘 (再次读写 HBM) 瓶颈:HBM 读写
FlashAttention
Q, K, V 分块 ↓ 切成小块放入 SRAM ↓ SRAM 中完成计算 (不写回中间结果) ↓ 只输出最终结果到 HBM 效果:2-4x 加速,无精度损失
Ring Attention:分布式长上下文
设备 1 设备 2 设备 3 设备 4 ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ Q块1 │ │ Q块2 │ │ Q块3 │ │ Q块4 │ │ K块1 │ → │ K块1 │ → │ K块1 │ → │ K块1 │ → (环形传递) │ V块1 │ │ V块1 │ │ V块1 │ │ V块1 │ └──────┘ └──────┘ └──────┘ └──────┘ KV 块在设备间环形传递,每个设备只存储自己的 Q 块 → 上下文长度随设备数线性扩展
技术栈对应关系
| 上下文里程碑 | 底层技术支撑 |
|---|---|
| 4K → 32K | 模型架构优化(RoPE 位置编码等) |
| 32K → 128K | FlashAttention 让训练可行 |
| 128K → 1M | FlashAttention-2/3 + 稀疏注意力 |
| 1M → 10M | Ring Attention + 分布式计算 |
精确注意力没有被抛弃 — FlashAttention 证明通过 IO 优化,精确注意力也能高效。
分布式是终极答案 — Ring Attention 让上下文长度与硬件规模线性相关。
硬件在追赶 — 更大 SRAM、更快 HBM 让长上下文成本持续下降。