AI 记忆技术演进

AI 记忆技术演进研究

记录 AI/LLM 记忆能力从"无状态"到"全面记忆"的技术转变

演进主线

无状态 LLM（2018-2022）

每次对话都是全新的，512-4K tokens

↓

上下文窗口扩张（2023-2024）

4K → 32K → 128K → 200K

↓

RAG 检索增强（2023-2024）

外部知识库补充上下文，向量数据库兴起

↓

持久记忆（2024-2025）

ChatGPT Memory、Claude Memory，跨会话记住用户

↓

Agent 记忆（2025-2026）

自主 Agent 拥有工作记忆 + 长期存储

↓

全面记忆时代（2026-）

1M+ 上下文 + 持久记忆 + MCP 工具记忆 + Agent 自主管理

关键数字速览

最大上下文窗口

~20,000x

512 → 10M tokens

主流上下文窗口

~250x

4K → 1M tokens

跨会话记忆

0 → 1

从无到标配

MCP 服务器

5,800+

5 个月从 0 到生态

向量数据库

7+

主流方案

记忆框架

从零到生态

Mem0 / Letta / Zep / OpenMemory

核心洞察

1. 上下文窗口不是终极方案 —— 即使有 1M tokens，仍需 RAG 和持久记忆补充

2. 记忆从产品特性变成基础设施 —— MCP 让记忆成为可插拔的标准化层

3. Agent 让记忆从被动变主动 —— AI 自己管理记忆，不再靠用户塞入

4. 多层记忆架构成为共识 —— 工作记忆 + 短期 + 长期，类比人脑

5. 开源追赶速度极快 —— Llama 4 Scout 10M，Qwen 2.5 1M

01 / 上下文窗口演进

从 512 tokens 到 1000 万 tokens，AI 的"工作记忆"扩大了近 20,000 倍

OpenAI GPT 系列

模型	发布时间	上下文窗口	备注
GPT-1	2018.06	512	最初的 Transformer LM
GPT-2	2019.02	1,024	1.5B 参数
GPT-3	2020.05	2,048	175B 参数，few-shot 涌现
GPT-3.5 / ChatGPT	2022.11.30	4,096	聊天界面上线，AI 出圈
GPT-4	2023.03.14	8K / 32K	多模态，两个上下文版本
GPT-4 Turbo	2023.11.06	128K	DevDay 发布
GPT-4o	2024.05.13	128K	全模态，速度更快
o1	2024.12.05	200K	100K 输出 tokens
GPT-4.1	2025.04.14	1M	含 mini 和 nano 变体
o3	2025.04	200K	与 o4-mini 同期

Anthropic Claude 系列

模型	发布时间	上下文窗口	备注
Claude 1	2023.03	9K	首次 API 发布
Claude 2	2023.07.11	100K	从 9K 跳到 100K，里程碑
Claude 2.1	2023.11.21	200K	翻倍
Claude 3 家族	2024.03.04	200K	Haiku / Sonnet / Opus
Claude 3.5 Sonnet	2024.06.20	200K	性能超 Opus
Claude 3.7 Sonnet	2025.02.25	200K	Extended Thinking
Claude Opus 4	2025.05.22	200K	最强编程模型
Claude Sonnet 4.5	2025.09.29	200K (1M beta)	1M Beta 测试
Claude Opus 4.6	2026.02.05	1M	1M GA，128K 输出
Claude Sonnet 4.6	2026.02.17	1M	1M GA，64K 输出

Google Gemini 系列

模型	发布时间	上下文窗口	备注
Gemini 1.0	2023.12.06	32K	Ultra / Pro / Nano
Gemini 1.5 Pro	2024.02.15	1M	首个 1M 上下文模型
Gemini 1.5 Pro 扩展	2024 年中	2M	Google I/O 翻倍
Gemini 2.0 Flash	2024.12	1M	Agentic 时代开启
Gemini 2.5 Flash	2025.05.20	1M	混合思考控制

开源模型

模型	发布时间	上下文窗口	系列
LLaMA 1	2023.02	2,048	Meta Llama
Llama 2	2023.07	4,096
Llama 3	2024.04	8,192
Llama 3.1	2024.07	128K
Llama 4 Scout	2025.04	10M
Mistral 7B	2023.10	8K (滑动窗口 32K)	Mistral AI
Mixtral 8x7B	2023.12	32K	Mistral AI
Qwen 1	2023.08	8K	阿里 Qwen
Qwen 2.5	2024.09	128K
Qwen 2.5-1M	2025.01	1M
DeepSeek-V3	2024.12	128K	DeepSeek
DeepSeek-R1	2025.01	128K	DeepSeek

关键转折点

2023.07 — Claude 2

首次突破 100K，证明长上下文可行

2024.02 — Gemini 1.5 Pro

首个 1M 上下文，开启百万 token 时代

2024.07 — Llama 3.1

开源阵营跟进到 128K

2025.04 — GPT-4.1

OpenAI 进入 1M 时代

2025.04 — Llama 4 Scout

10M tokens，开源超越闭源上下文长度

02 / RAG 技术演进

检索增强生成——让 AI 在有限上下文内"记住"无限知识

核心论文时间线

2017.03 — FAISS

Facebook AI 相似度搜索库，向量检索的基础设施

2020.02 — REALM

Google，检索增强语言模型预训练，可微分检索器

2020.05 — RAG 论文

Facebook/Meta AI，Lewis 等，组合 DPR + BART，奠定 RAG 范式

2022.10 — LangChain

Harrison Chase 创建，让 RAG 管道构建平民化

2023.10 — Self-RAG

LLM 自主决定是否检索、检索什么，通过反射 token 自我评估

2024.01 — Corrective RAG

增加评估器判断检索结果相关性，不相关则触发补充搜索

2024.07 — GraphRAG

Microsoft 开源，用知识图谱增强 RAG，GitHub 10K+ stars

从 Naive 到 Advanced 到 Agentic

Naive RAG（2022-2023）

文档 → 分块 → 向量化 → 存入向量数据库
用户提问 → 向量化 → 相似度搜索 → Top-K → 拼入 Prompt → LLM 生成

问题：检索质量不稳定、缺乏自我纠错、无法处理复杂查询。

Advanced RAG（2023-2024）

方法	改进点
Self-RAG	LLM 学会自主决定是否检索，通过反射 token 自我评估
CRAG	评估器判断相关性，不相关时自动 Web 搜索补充
GraphRAG	从文档中提取知识图谱，支持全局摘要查询

Agentic RAG（2024-2025）

用户提问

↓

Agent 路由器

判断是否需要检索、从哪里检索

↓

向量数据库知识图谱 Web 搜索

↓

Agent 评估器

结果够不够好？需不需要再查？

↓

LLM 生成 → 自检 → 输出

向量数据库生态

数据库	创建时间	类型	特点
FAISS	2017.03	库	Facebook，行业基石
Weaviate	2018 末	开源 DB	最早的专用向量搜索数据库
Milvus	2019	开源 DB	分布式架构
Pinecone	2019	云托管	全托管服务，开箱即用
pgvector	2021.04	PG 扩展	给 Postgres 加向量能力
Qdrant	2021	开源 DB	Rust 编写，高性能
Chroma	2022.10	开源 DB	$18M 种子轮，开发体验好

RAG vs 长上下文

长上下文

适合 < 1M tokens 的数据量
全局理解好
上下文越长延迟越高
全量 token 计费

RAG

数据量无上限
可能漏检
检索本身很快
只检索相关片段，成本低

结论

不是替代关系。1M 上下文适合"全局理解"，RAG 适合"海量知识精准检索"。实际应用中两者经常组合使用。

03 / 持久记忆系统

从"每次对话都是陌生人"到"AI 记住你是谁"

MemGPT / Letta

核心思想：借鉴操作系统虚拟内存

2023.10.12 — MemGPT 论文发布，"Towards LLMs as Operating Systems"

2024.09 — MemGPT 更名为 Letta（MemGPT 变成设计模式名）

主上下文（有限 token）← 类比 RAM
    ↕ 自动换入换出
归档存储（无限）← 类比磁盘

LLM 自主决定什么信息保留在"工作记忆"中，
什么信息归档到长期存储，需要时再调回来。

ChatGPT Memory

2024.02

OpenAI 发布 ChatGPT Memory 功能（测试）

2024.09.05

Memory 向 Free / Plus / Team / Enterprise 开放

2025.04.10

Memory 扩展为参考所有历史对话做个性化

2025.06.03

免费用户也获得轻量级跨会话连续性

Claude 记忆体系

2024.06

Claude Projects 上线 — 持久工作区 + 文档 + 自定义指令

2024.09.12

Team / Enterprise 用户推出记忆功能

2026.03

记忆功能向所有 Claude 用户开放

Claude Code 的记忆系统（开发者工具）

~/.claude/projects/<project>/memory/ 目录存放持久记忆

CLAUDE.md 文件作为项目级和用户级持久指令

自动记忆：积累构建命令、调试经验、架构笔记、代码风格偏好

IDE 记忆系统

Cursor

Cursor Rules（.cursorrules 文件）
社区 Memory Banks 方案
无内置自动记忆

Windsurf

Memories 系统：自动 + 手动
AI 对话中识别重要信息
深层上下文不跨会话持久

记忆框架

框架	时间	说明
Zep	2023	基于时序知识图谱，底层用 Graphiti；社区版已停更，转向 Cloud
Mem0	2024；A 轮 $24M	通用 AI 记忆层，自动提取、压缩、检索关键事实；YC 孵化
OpenMemory	2025	本地持久记忆（基于 MCP），支持多个 AI 客户端

从无到有的转变

2022 以前

完全无状态，每次对话从零开始

2023

MemGPT 提出分层记忆概念（学术）

2024 上半年

ChatGPT Memory + Claude Projects（产品化）

2024 下半年

记忆框架涌现 + IDE 集成记忆

2025

记忆成为标配，MCP 让记忆跨平台

2026

AI 主动管理自己的记忆

04 / 微调与对齐

如果上下文是 AI 的"短期记忆"，那微调就是"长期记忆写入"

OpenAI 微调 API 时间线

时间	事件
2020-2022	GPT-3 微调可用（davinci / curie / babbage / ada）
2023.08.22	GPT-3.5 Turbo 微调上线
2023 末-2024 初	GPT-4 微调开放（实验性）
2024.08.20	GPT-4o 微调 GA（$25/M 训练 tokens）
2024.12	强化微调（RFT）Alpha，"12 Days of OpenAI"
2025.05	RFT GA + GPT-4.1 nano 监督微调

参数高效微调突破

LoRA — 低秩适配（2021.06）

原始权重矩阵 W (d×d)  ← 冻结
           +
低秩分解 ΔW = A(d×r) × B(r×d)  ← 可训练，r << d

训练参数量：从数十亿 → 数百万（减少 99%+）

让普通开发者也能在消费级 GPU 上微调大模型。

QLoRA（2023.05.23）

4-bit 量化模型 + LoRA 适配器
→ 65B 模型在单张 48GB GPU 上微调
→ 成本再降一个数量级

对齐方法演进

时间	方法	意义
2022.01	RLHF	强化学习 + 人类反馈，GPT-3 学会遵循指令；成为行业标准
2023.05.29	DPO	直接偏好优化，跳过奖励模型，比 RLHF 简单得多
2024-2025	ORPO / SimPO / KTO	在 DPO 基础上继续简化对齐流程

微调 vs 其他记忆方式

维度	微调	上下文 / RAG	持久记忆
写入速度	慢（需训练）	即时	即时
持久性	永久（进入参数）	会话级 / 检索级	跨会话
灵活性	低	高	中
成本	高	低	低
适用场景	领域知识、风格	实时信息	用户偏好

趋势

微调的角色从"主角"变成"专用工具"：不再用微调来补充知识（1M 上下文 + RAG 更高效），而是专注于行为和风格的定制。

05 / Agent 记忆架构

从"人类管理 AI 的记忆"到"AI 自己管理自己的记忆"

早期自主 Agent（2023）

Agent	上线时间	记忆方案
AutoGPT	2023.03	Pinecone 向量数据库 → 后简化为本地文件。5 个月 100K+ stars
BabyAGI	2023.03	任务循环 + 向量记忆（Pinecone）
AgentGPT	2023.03	浏览器端自主 Agent

早期特点：记忆方案粗糙，向量数据库当万能解法，经常"记了但找不到"。

框架记忆模块

LangChain（2022.10 上线）

ConversationBufferMemory 保留全部历史（简单，token 爆炸）

ConversationSummaryMemory LLM 总结历史（省 token，丢细节）

VectorStoreRetrieverMemory 存入向量库，按相关性检索

LangGraph（2024 上线）

基于状态的记忆 + checkpointing 机制

线程级持久化，2025 初长期记忆支持上线

CrewAI（2024）— 四种记忆类型

短期记忆当前任务上下文

长期记忆跨任务持久化

实体记忆关于人/物/概念的结构化信息

程序记忆 "怎么做"的经验积累

Agent SDK

SDK	发布时间	核心特性
OpenAI Agents SDK	2025.03	Swarm 生产级演进；Agents / Handoffs / Guardrails / Tools
Claude Agent SDK	2025	与 Claude Code 同基础设施；文件编辑 + 命令执行 + MCP

核心转变

维度	早期（2023）	现在（2025-2026）
谁管理记忆	开发者硬编码	Agent 自主决策
存储方式	全塞向量库	分层（工作/短期/长期/程序）
检索方式	向量相似度	多策略混合
跨 Agent 共享	不支持	MCP 标准化共享
经验学习	无	程序记忆 / auto-memory

06 / MCP 与工具记忆

Model Context Protocol——让记忆跨工具、跨平台流通的开放标准

MCP 时间线

2024.11.25

Anthropic 发布 MCP 开放标准 + Python / TypeScript SDK

2024.11-2025 初

早期采用者：Block、Apollo、Zed、Replit、Codeium、Sourcegraph

2025.04

生态爆发：8M+ 下载、5,800+ 服务器、300+ 客户端

2025

OpenAI 和 Google DeepMind 采纳 MCP；C# / Java SDK 上线

2025.12

MCP 捐赠给 Linux 基金会下的 AAIF（Anthropic + Block + OpenAI 联合创始）

MCP 如何实现工具记忆

┌─────────────────────────────┐
│          AI 模型             │
│  "用户上次用深色主题"         │
└──────────┬──────────────────┘
           │ MCP 协议（标准化接口）
    ┌──────┼──────┐
    ▼      ▼      ▼
┌──────┐┌──────┐┌──────┐
│文件系统││数据库 ││知识库 │
│Server ││Server││Server│
└──────┘└──────┘└──────┘

Resources（资源）→ 模型可读取的数据
Tools（工具）→ 模型可调用的操作，含写入记忆

记忆相关 MCP 实践

OpenMemory（Mem0, 2025）

本地持久记忆 → MCP Server 暴露读写接口 → 任何 MCP 客户端均可访问

核心价值：在 Claude Desktop 里告诉 AI 的偏好，切换到 Cursor 也能用。记忆不再被锁在单个应用里。

MCP 前 vs 后

维度	MCP 之前	MCP 之后
记忆归属	锁在各应用内	跨应用共享
接入方式	每个 App 自己写适配器	标准协议，写一次到处用
开发成本	为每个 AI 工具单独开发	一个 Server 覆盖所有
用户体验	换工具就丢记忆	记忆跟着用户走
生态	碎片化	5,800+ 服务器统一生态

发布时服务器数

~100

2024.11

5 个月后

5,800+

2025.04

总下载量

8M+

2025.04

客户端数

300+

2025.04

07 / 注意力机制演进

大上下文窗口背后的底层技术支撑——没有这些创新，1M tokens 就只是理论数字

核心问题：O(n^2) 复杂度

4K tokens

1600 万

次注意力计算

128K tokens

163 亿

次注意力计算

1M tokens

1 万亿

次注意力计算

不解决这个问题，长上下文就是空谈。

关键创新时间线

时间	创新	影响
2017.06	原始 Transformer	"Attention Is All You Need"；O(n^2) 复杂度
2019-2020	稀疏注意力	Longformer / BigBird；降低复杂度
2022.05	FlashAttention	IO 感知精确注意力 + 分块；2-4x 加速
2023	FlashAttention-2	更好的并行和工作分配
2023.08	Ring Attention	分块并行，分布到多设备，理论"无限"上下文
2024	FlashAttention-3	异步计算 + 低精度支持
2024.02	Ring Attention 百万级	实际验证 1M+ token 处理能力

FlashAttention：最关键的突破

传统注意力

Q, K, V 全在 GPU HBM
  ↓
计算完整 n×n 矩阵
（写回 HBM）
  ↓
与 V 相乘
（再次读写 HBM）

瓶颈：HBM 读写

FlashAttention

Q, K, V 分块
  ↓
切成小块放入 SRAM
  ↓
SRAM 中完成计算
（不写回中间结果）
  ↓
只输出最终结果到 HBM

效果：2-4x 加速，无精度损失

Ring Attention：分布式长上下文

设备 1        设备 2        设备 3        设备 4
┌──────┐    ┌──────┐    ┌──────┐    ┌──────┐
│ Q块1  │    │ Q块2  │    │ Q块3  │    │ Q块4  │
│ K块1  │ →  │ K块1  │ →  │ K块1  │ →  │ K块1  │ → (环形传递)
│ V块1  │    │ V块1  │    │ V块1  │    │ V块1  │
└──────┘    └──────┘    └──────┘    └──────┘

KV 块在设备间环形传递，每个设备只存储自己的 Q 块
→ 上下文长度随设备数线性扩展

技术栈对应关系

上下文里程碑	底层技术支撑
4K → 32K	模型架构优化（RoPE 位置编码等）
32K → 128K	FlashAttention 让训练可行
128K → 1M	FlashAttention-2/3 + 稀疏注意力
1M → 10M	Ring Attention + 分布式计算

趋势

精确注意力没有被抛弃 — FlashAttention 证明通过 IO 优化，精确注意力也能高效。

分布式是终极答案 — Ring Attention 让上下文长度与硬件规模线性相关。

硬件在追赶 — 更大 SRAM、更快 HBM 让长上下文成本持续下降。