From 42ac444ac488e266b24ae7076d85e92d6009d876 Mon Sep 17 00:00:00 2001 From: kang Date: Sat, 25 Apr 2026 19:20:45 +0800 Subject: [PATCH] init repo --- .gitignore | 24 ++ .project.json | 24 ++ 01-上下文窗口演进.md | 120 +++++++ 02-RAG技术演进.md | 87 +++++ 03-持久记忆系统.md | 91 +++++ 04-微调与对齐.md | 68 ++++ 05-Agent记忆架构.md | 88 +++++ 06-MCP与工具记忆.md | 94 +++++ 07-注意力机制演进.md | 83 +++++ AGENTS.md | 21 ++ CLAUDE.md | 21 ++ README.md | 59 ++++ RULES.md | 29 ++ index.html | 795 +++++++++++++++++++++++++++++++++++++++++++ 14 files changed, 1604 insertions(+) create mode 100644 .gitignore create mode 100644 .project.json create mode 100644 01-上下文窗口演进.md create mode 100644 02-RAG技术演进.md create mode 100644 03-持久记忆系统.md create mode 100644 04-微调与对齐.md create mode 100644 05-Agent记忆架构.md create mode 100644 06-MCP与工具记忆.md create mode 100644 07-注意力机制演进.md create mode 100644 AGENTS.md create mode 100644 CLAUDE.md create mode 100644 README.md create mode 100644 RULES.md create mode 100644 index.html diff --git a/.gitignore b/.gitignore new file mode 100644 index 0000000..1bdd6ff --- /dev/null +++ b/.gitignore @@ -0,0 +1,24 @@ +# OS +.DS_Store + +# Env +.env +.env.* + +# Python +__pycache__/ +.pytest_cache/ +.mypy_cache/ +.venv/ +venv/ + +# Node +node_modules/ +.next/ +dist/ +build/ +.nuxt/ +.output/ + +# Misc +*.log diff --git a/.project.json b/.project.json new file mode 100644 index 0000000..e3cd77a --- /dev/null +++ b/.project.json @@ -0,0 +1,24 @@ +{ + "name": "AI记忆技术演进", + "description": "AI 记忆技术演进研究展示页面", + "status": "archived", + "kind": "analysis", + "created": "2025-07-24", + "ports": [ + { + "port": 3724, + "label": "dev", + "fixed": true + } + ], + "stack": [ + "HTML" + ], + "urls": [ + { + "url": "http://localhost:3724", + "type": "docs", + "label": "local docs" + } + ] +} diff --git a/01-上下文窗口演进.md b/01-上下文窗口演进.md new file mode 100644 index 0000000..b31d7dd --- /dev/null +++ b/01-上下文窗口演进.md @@ -0,0 +1,120 @@ +# 上下文窗口演进 + +> 从 512 tokens 到 1000 万 tokens,AI 的"工作记忆"扩大了近 20,000 倍。 + +## OpenAI GPT 系列 + +| 模型 | 发布时间 | 上下文窗口 | 备注 | +|------|----------|-----------|------| +| GPT-1 | 2018.06 | 512 tokens | 最初的 Transformer LM | +| GPT-2 | 2019.02 | 1,024 tokens | 1.5B 参数 | +| GPT-3 | 2020.05 | 2,048 tokens | 175B 参数,few-shot 涌现 | +| GPT-3.5 / ChatGPT | 2022.11.30 | 4,096 tokens | 聊天界面上线,AI 出圈 | +| GPT-4 | 2023.03.14 | 8K / 32K tokens | 多模态,两个上下文版本 | +| GPT-4 Turbo | 2023.11.06 | 128K tokens | DevDay 发布,上下文翻 4 倍 | +| GPT-4o | 2024.05.13 | 128K tokens | 全模态,速度更快 | +| o1-preview | 2024.09.12 | 128K tokens | 思维链推理 | +| o1 (正式版) | 2024.12.05 | 200K tokens | 100K 输出 tokens | +| GPT-4.1 | 2025.04.14 | 1M tokens | 含 mini 和 nano 变体 | +| o3 | 2025.04 | 200K tokens | 与 o4-mini 同期发布 | + +## Anthropic Claude 系列 + +| 模型 | 发布时间 | 上下文窗口 | 备注 | +|------|----------|-----------|------| +| Claude 1 | 2023.03 | 9K tokens | 首次 API 发布 | +| Claude 2 | 2023.07.11 | 100K tokens | 从 9K 跳到 100K,里程碑 | +| Claude 2.1 | 2023.11.21 | 200K tokens | 翻倍 | +| Claude 3 (Haiku/Sonnet/Opus) | 2024.03.04 | 200K tokens | 三级模型家族 | +| Claude 3.5 Sonnet | 2024.06.20 | 200K tokens | 性能超 Opus,性价比之王 | +| Claude 3.5 Sonnet v2 | 2024.10.22 | 200K tokens | Computer Use 引入 | +| Claude 3.7 Sonnet | 2025.02.25 | 200K tokens | Extended Thinking 模式 | +| Claude Sonnet 4 / Opus 4 | 2025.05.22 | 200K tokens | Opus 4 最强编程模型 | +| Claude Sonnet 4.5 | 2025.09.29 | 200K (1M beta) | 1M 上下文 Beta 测试 | +| Claude Opus 4.5 | 2025.11.24 | 200K tokens | 最强推理 | +| Claude Opus 4.6 | 2026.02.05 | **1M tokens** | 1M GA,128K 输出 | +| Claude Sonnet 4.6 | 2026.02.17 | **1M tokens** | 1M GA,64K 输出 | + +## Google Gemini 系列 + +| 模型 | 发布时间 | 上下文窗口 | 备注 | +|------|----------|-----------|------| +| Gemini 1.0 | 2023.12.06 | 32K tokens | Ultra/Pro/Nano 三版 | +| Gemini 1.5 Pro | 2024.02.15 | **1M tokens** (默认 128K) | 首个 1M 上下文模型 | +| Gemini 1.5 Pro (扩展) | 2024 年中 | **2M tokens** | Google I/O 翻倍 | +| Gemini 2.0 Flash | 2024.12 | 1M tokens | Agentic 时代开启 | +| Gemini 2.5 Pro | 2025 | 1M tokens | — | +| Gemini 2.5 Flash | 2025.05.20 | 1M tokens | 混合思考控制 | + +## 开源模型 + +### Meta Llama + +| 模型 | 发布时间 | 上下文窗口 | +|------|----------|-----------| +| LLaMA 1 | 2023.02.24 | 2,048 tokens | +| Llama 2 | 2023.07 | 4,096 tokens | +| Llama 3 | 2024.04.18 | 8,192 tokens | +| Llama 3.1 | 2024.07.23 | 128K tokens | +| Llama 3.2 | 2024.09 | 128K tokens | +| Llama 4 Maverick | 2025.04.05 | **1M tokens** | +| Llama 4 Scout | 2025.04.05 | **10M tokens** | + +### Mistral AI + +| 模型 | 发布时间 | 上下文窗口 | +|------|----------|-----------| +| Mistral 7B | 2023.10 | 8K (滑动窗口到 32K) | +| Mixtral 8x7B | 2023.12.11 | 32K tokens | +| Mistral Large 2 | 2024 | 128K tokens | +| Mistral Small 3.1 | 2025.03.17 | 128K tokens | + +### 阿里 Qwen(通义千问) + +| 模型 | 发布时间 | 上下文窗口 | +|------|----------|-----------| +| Qwen 1 | 2023.08 | 8K tokens | +| Qwen 2 | 2024.06.06 | 128K tokens | +| Qwen 2.5 | 2024.09.19 | 128K tokens | +| Qwen 2.5-1M | 2025.01 | **1M tokens** | +| Qwen 3 | 2025.04.28 | 1M tokens | + +### DeepSeek + +| 模型 | 发布时间 | 上下文窗口 | +|------|----------|-----------| +| DeepSeek-V2 | 2024.05 | 128K tokens | +| DeepSeek-V3 | 2024.12.25 | 128K tokens | +| DeepSeek-R1 | 2025.01.20 | 128K tokens | + +## 增长趋势图 + +``` +tokens +10M ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ★ Llama 4 Scout + │ + 1M ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ★─────────────★ Claude 4.6 / GPT-4.1 + │ │ Gemini 1.5 + │ │ +200K ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ★───────┤ Claude 2.1 → 3.x +128K ─ ─ ─ ─ ─ ─ ─ ─ ─ ★─┤ │ GPT-4 Turbo / Llama 3.1 + │ │ │ │ +100K ─ ─ ─ ─ ─ ─ ─ ★───┤ │ │ Claude 2 + 32K ─ ─ ─ ─ ─ ─ ★─┤ │ │ │ GPT-4 32K + 8K ─ ─ ─ ─ ─ ★─┤ │ │ │ │ GPT-4 + 4K ─ ─ ─ ─ ★─┤ │ │ │ │ │ ChatGPT + 2K ─ ─ ─ ★─┤ │ │ │ │ │ │ GPT-3 + 1K ─ ─ ★─┤ │ │ │ │ │ │ │ GPT-2 +512 ─ ★─┤ │ │ │ │ │ │ │ │ GPT-1 + │ │ │ │ │ │ │ │ │ │ +─────┼──┼──┼──┼──┼──┼──┼───┼─┼───────┼──→ 时间 + '18'19'20'22'23 '24 '25-26 +``` + +## 关键转折点 + +1. **Claude 2(2023.07)** —— 首次突破 100K,证明长上下文可行 +2. **Gemini 1.5 Pro(2024.02)** —— 首个 1M 上下文,开启百万 token 时代 +3. **Llama 3.1(2024.07)** —— 开源阵营跟进到 128K +4. **Claude 4.6 / GPT-4.1(2026.02 / 2025.04)** —— 主流商用模型进入 1M 时代 +5. **Llama 4 Scout(2025.04)** —— 10M tokens,开源模型超越闭源上下文长度 diff --git a/02-RAG技术演进.md b/02-RAG技术演进.md new file mode 100644 index 0000000..10b2ca2 --- /dev/null +++ b/02-RAG技术演进.md @@ -0,0 +1,87 @@ +# RAG 技术演进 + +> 检索增强生成(Retrieval-Augmented Generation)——让 AI 在有限上下文内"记住"无限知识。 + +## 核心论文时间线 + +| 时间 | 里程碑 | 说明 | +|------|--------|------| +| 2017.03 | FAISS 发布 | Facebook AI 相似度搜索库,向量检索的基础设施 | +| 2019 | Wizard of Wikipedia | 通过检索 Wikipedia 句子提升事实准确性 | +| 2020.02 | REALM 论文 | Google,检索增强语言模型预训练,可微分检索器 | +| 2020.05 | **RAG 论文**(Facebook/Meta AI) | Lewis 等,arXiv:2005.11401,组合 DPR + BART,奠定 RAG 范式 | +| 2020 | Dense Passage Retrieval(DPR) | 双 BERT 编码器,比 BM25 提升 9-19 个百分点 | + +## 从 Naive RAG 到 Advanced RAG + +### Naive RAG(2022-2023) + +最简单的线性管道: + +``` +文档 → 分块(Chunk) → 向量化(Embed) → 存入向量数据库 + ↓ +用户提问 → 向量化 → 相似度搜索 → 取 Top-K → 拼入 Prompt → LLM 生成 +``` + +**问题**:检索质量不稳定、缺乏自我纠错、无法处理复杂查询。 + +### Advanced RAG(2023-2024) + +| 时间 | 方法 | 论文/项目 | 改进点 | +|------|------|-----------|--------| +| 2023.10 | **Self-RAG** | arXiv:2310.11511 | LLM 学会自主决定是否检索、检索什么,通过反射 token 自我评估 | +| 2024.01 | **Corrective RAG (CRAG)** | arXiv:2401.15884 | 增加评估器判断检索结果相关性,不相关则触发 Web 搜索补充 | +| 2024.07 | **GraphRAG** | Microsoft 开源 | 用 LLM 从文档中提取知识图谱,支持全局摘要查询,GitHub 10K+ stars | + +### Agentic RAG(2024-2025) + +RAG 不再是固定管道,而是由 Agent 动态编排: + +``` +用户提问 + ↓ +Agent 路由器(判断是否需要检索、从哪里检索) + ↓ +┌────────────┬────────────┬────────────┐ +│ 向量数据库 │ 知识图谱 │ Web 搜索 │ +└────────────┴────────────┴────────────┘ + ↓ +Agent 评估器(结果够不够好?需不需要再查?) + ↓ +LLM 生成 → Agent 自检 → 输出 +``` + +## 向量数据库生态 + +| 数据库 | 创建时间 | 类型 | 特点 | +|--------|----------|------|------| +| FAISS | 2017.03 | 库(非数据库) | Facebook 出品,高性能相似度搜索,行业基石 | +| Weaviate | 2018 末 | 开源数据库 | 最早的专用向量搜索数据库之一 | +| Milvus | 2019 | 开源数据库 | 专为向量构建,分布式架构 | +| Pinecone | 2019(成立) | 云托管 | 全托管服务,开箱即用 | +| pgvector | 2021.04 | PostgreSQL 扩展 | 给现有 Postgres 加向量能力,低迁移成本 | +| Qdrant | 2021 | 开源数据库 | Rust 编写,高性能 | +| Chroma | 2022.10 | 开源数据库 | 2023.04 获 $18M 种子轮,开发体验好 | + +### 生态变化趋势 + +``` +2017-2020:只有 FAISS 一个选择 +2021-2022:pgvector、Qdrant、Chroma 涌现 +2023: 向量数据库"百花齐放",每个 LLM 项目标配 +2024-2025:整合期——pgvector 因为"不用换数据库"逆袭; + 专用数据库开始差异化(图+向量、多模态、混合搜索) +``` + +## RAG vs 长上下文:替代还是互补? + +| 维度 | 长上下文 | RAG | +|------|---------|-----| +| 适用数据量 | < 1M tokens | 无上限 | +| 延迟 | 上下文越长越慢 | 检索本身很快 | +| 成本 | 全量计费 | 只检索相关片段 | +| 准确性 | 全局理解好 | 可能漏检 | +| 实时性 | 需要重新装入 | 新增数据即时可搜 | + +**结论**:不是替代关系。1M 上下文适合"需要全局理解的文档",RAG 适合"海量知识库的精准检索"。实际应用中两者经常组合使用。 diff --git a/03-持久记忆系统.md b/03-持久记忆系统.md new file mode 100644 index 0000000..b39378d --- /dev/null +++ b/03-持久记忆系统.md @@ -0,0 +1,91 @@ +# 持久记忆系统 + +> 从"每次对话都是陌生人"到"AI 记住你是谁"。 + +## MemGPT / Letta + +**核心思想**:借鉴操作系统虚拟内存,让 LLM 拥有分层记忆管理能力。 + +| 时间 | 事件 | +|------|------| +| 2023.10.12 | MemGPT 论文发布(arXiv:2310.08560),"Towards LLMs as Operating Systems" | +| 2024.09 | MemGPT 更名为 Letta,MemGPT 变成设计模式名,Letta 是开源框架 | + +**架构**: +``` +主上下文(有限 token)← 类比 RAM + ↕ 自动换入换出 +归档存储(无限)← 类比磁盘 +``` + +LLM 自主决定什么信息保留在"工作记忆"中,什么信息归档到长期存储,需要时再调回来。 + +## ChatGPT Memory + +| 时间 | 事件 | +|------|------| +| 2024.02 | OpenAI 发布 ChatGPT Memory 功能(测试) | +| 2024.09.05 | Memory 向 Free/Plus/Team/Enterprise 用户开放 | +| 2025.04.10 | Memory 扩展为参考所有历史对话做个性化,不再仅限显式保存 | +| 2025.06.03 | 免费用户也获得轻量级跨会话连续性 | + +**机制**:用户可以让 ChatGPT "记住"特定信息,也可以手动管理记忆列表。后期演进为自动从历史对话中提取。 + +## Claude 记忆体系 + +| 时间 | 事件 | +|------|------| +| 2024.06 | Claude Projects 上线 —— 持久工作区,可上传文档、设置自定义指令 | +| 2024.09.12 | Anthropic 为 Team/Enterprise 用户推出记忆功能 | +| 2026.03 初 | 记忆功能向所有 Claude 用户开放 | + +**Claude Code 的记忆系统**(开发者工具): +- `~/.claude/projects//memory/` 目录存放持久记忆 +- `CLAUDE.md` 文件作为项目级和用户级持久指令 +- 自动记忆:积累构建命令、调试经验、架构笔记、代码风格偏好 +- 跨会话保持连续性 + +## IDE 记忆系统 + +### Cursor +- **Cursor Rules**:持久化系统提示(`.cursorrules` 文件) +- **社区 Memory Banks**:第三方方案提供长期上下文 +- 无内置自动记忆,依赖规则文件和社区方案 + +### Windsurf +- **Memories 系统**:自动记忆(AI 在对话中识别重要信息)+ 手动记忆 +- 但深层上下文理解不跨会话持久化,每次会话需重新读取文件 + +## 记忆框架 + +| 框架 | 时间 | 说明 | +|------|------|------| +| **Zep** | 2023 | 基于时序知识图谱的记忆,底层用 Graphiti 框架;社区版已停更,转向 Zep Cloud | +| **Mem0** | 2024 公开;2025.10 获 $24M A 轮 | 通用 AI 记忆层,自动提取、压缩、检索关键事实;YC 孵化 | +| **OpenMemory** | 2025 | 本地持久记忆存储(基于 MCP),支持 Claude Desktop、Cursor、Windsurf 等 | + +## 从无到有的转变 + +``` +2022 以前 ───── 完全无状态,每次对话从零开始 + │ +2023 ────────── MemGPT 提出分层记忆概念(学术) + │ +2024 上半年 ─── ChatGPT Memory 上线(产品化) + │ Claude Projects 提供持久工作区 + │ +2024 下半年 ─── 记忆框架生态涌现(Zep、Mem0) + │ IDE 开始集成记忆(Cursor Rules、Windsurf) + │ +2025 ────────── 记忆成为标配功能,不是差异化卖点 + │ MCP 让记忆跨平台流通 + │ +2026 ────────── AI 主动管理自己的记忆 + Claude Code auto-memory 自动积累项目经验 +``` + +## 关键转折 + +1. **MemGPT(2023.10)** —— 概念突破:LLM 可以像操作系统一样管理自己的记忆 +2. **ChatGPT Memory(2024.02)** —— 产品突破:数亿用户首次体验"AI 记住我" +3. **MCP + OpenMemory(2025)** —— 架构突破:记忆从应用锁定变成可插拔标准 diff --git a/04-微调与对齐.md b/04-微调与对齐.md new file mode 100644 index 0000000..fe2a7a5 --- /dev/null +++ b/04-微调与对齐.md @@ -0,0 +1,68 @@ +# 微调与对齐——通过训练"写入"记忆 + +> 如果上下文是 AI 的"短期记忆",那微调就是"长期记忆写入"。 + +## 微调 API 时间线 + +### OpenAI + +| 时间 | 事件 | +|------|------| +| 2020-2022 | GPT-3 微调可用(davinci/curie/babbage/ada) | +| 2023.08.22 | GPT-3.5 Turbo 微调上线 | +| 2023 末-2024 初 | GPT-4 微调开放(实验性) | +| 2024.08.20 | GPT-4o 微调 GA($25/M 训练 tokens) | +| 2024.12 | 强化微调(RFT)Alpha 发布,"12 Days of OpenAI" | +| 2025.05 | RFT GA,支持 o4-mini($100/hr 训练) | +| 2025.05 | GPT-4.1 nano 监督微调可用 | + +## 参数高效微调(PEFT)突破 + +### LoRA(2021.06) + +**论文**:arXiv:2106.09685,"Low-Rank Adaptation of Large Language Models" + +``` +原始权重矩阵 W (d×d) ← 冻结 + + +低秩分解 ΔW = A(d×r) × B(r×d) ← 可训练,r << d + +训练参数量:从数十亿 → 数百万(减少 99%+) +``` + +**影响**:让普通开发者也能在消费级 GPU 上微调大模型,将知识"写入"模型参数。 + +### QLoRA(2023.05.23) + +**论文**:arXiv:2305.14314 + +``` +4-bit 量化模型 + LoRA 适配器 +→ 65B 模型在单张 48GB GPU 上微调 +→ 成本再降一个数量级 +``` + +## 对齐方法——教 AI "如何思考" + +| 时间 | 方法 | 论文 | 意义 | +|------|------|------|------| +| 2022.01 | **InstructGPT / RLHF** | OpenAI | 强化学习+人类反馈,GPT-3 学会遵循指令;成为行业标准 | +| 2023.05.29 | **DPO** | arXiv:2305.18290 | 直接偏好优化,跳过奖励模型,直接在偏好数据对上训练;比 RLHF 简单得多 | +| 2024-2025 | ORPO / SimPO / KTO | 各种 | 在 DPO 基础上继续简化对齐流程 | + +## 微调 vs 其他记忆方式 + +| 维度 | 微调 | 上下文/RAG | 持久记忆 | +|------|------|-----------|---------| +| 写入速度 | 慢(需要训练) | 即时 | 即时 | +| 持久性 | 永久(进入参数) | 会话级 / 检索级 | 跨会话 | +| 灵活性 | 低(改了就改了) | 高(随时替换) | 中 | +| 成本 | 高 | 低 | 低 | +| 适用场景 | 领域专业知识、风格迁移 | 实时信息、用户数据 | 用户偏好、历史 | + +## 趋势 + +微调在记忆体系中的角色正在从"主角"变成"专用工具": +- **不再用微调来补充知识** —— 1M 上下文 + RAG 更高效 +- **微调专注于行为和风格** —— 教模型"怎么做"而非"知道什么" +- **对齐方法持续简化** —— 从 RLHF 到 DPO 到更轻量的变体 diff --git a/05-Agent记忆架构.md b/05-Agent记忆架构.md new file mode 100644 index 0000000..0b9ae04 --- /dev/null +++ b/05-Agent记忆架构.md @@ -0,0 +1,88 @@ +# Agent 记忆架构 + +> 从"人类管理 AI 的记忆"到"AI 自己管理自己的记忆"。 + +## 早期自主 Agent(2023) + +| Agent | 上线时间 | 记忆方案 | +|-------|----------|---------| +| **AutoGPT** | 2023.03 | 最初用 Pinecone 向量数据库存记忆;后简化为本地文件存储。5 个月 GitHub 100K+ stars | +| **BabyAGI** | 2023.03 | 任务创建/执行/优先级循环 + 向量记忆(Pinecone)。作者 Yohei Nakajima | +| **AgentGPT** | 2023.03 | 浏览器端自主 Agent | + +**早期特点**:记忆方案粗糙,向量数据库当万能解法,经常"记了但找不到"。 + +## 框架记忆模块 + +### LangChain(2022.10 上线) + +| 记忆类型 | 说明 | +|---------|------| +| ConversationBufferMemory | 保留全部对话历史(最简单,token 爆炸) | +| ConversationSummaryMemory | 用 LLM 总结历史(省 token,丢细节) | +| VectorStoreRetrieverMemory | 对话存入向量库,按相关性检索 | + +演进:从简单的对话历史 → 复杂的分层记忆类型。 + +### LangGraph(2024 上线) + +- **基于状态的记忆**:checkpointing 机制 +- **线程级持久化**:每个对话线程独立状态 +- **2025 初**:长期记忆支持上线,JSON 文档存储 + 自定义命名空间 + +### CrewAI(2024) + +四种记忆类型: +``` +短期记忆 ← 当前任务上下文 +长期记忆 ← 跨任务持久化 +实体记忆 ← 关于人/物/概念的结构化信息 +程序记忆 ← "怎么做"的经验积累 +``` +统一 Memory 类 + LLM 分析内容 + RAG 支持检索。 + +### AutoGen / AG2(Microsoft, 2023) + +- ListMemory:按时间顺序记录 +- 对话级记忆:维护多 Agent 间的对话历史 + +## Agent SDK + +| SDK | 发布时间 | 核心特性 | +|-----|----------|---------| +| **OpenAI Agents SDK** | 2025.03 | Swarm 的生产级演进;4 个核心原语(Agents/Handoffs/Guardrails/Tools);提供者无关 | +| **Claude Agent SDK** | 2025 | 与 Claude Code 同基础设施;程序化构建 Agent,支持文件编辑、命令执行、MCP 集成 | + +## Agent 记忆架构的演进 + +``` +2023 初 ──── "向量数据库就是记忆" + AutoGPT/BabyAGI 用 Pinecone 存一切 + 问题:检索质量差,无结构 + +2023-2024 ── "框架化记忆管理" + LangChain 提供多种 Memory 类型 + 开始区分短期/长期/实体记忆 + +2024 ─────── "结构化 + 持久化" + LangGraph checkpoint、CrewAI 四种记忆 + Agent 开始有"经验积累" + +2025 ─────── "SDK 级记忆" + OpenAI / Claude Agent SDK 提供原生记忆 + MCP 让 Agent 接入任意外部记忆 + +2026 ─────── "自主记忆管理" + Agent 决定记什么、忘什么、什么时候回忆 + Claude Code auto-memory 是典型案例 +``` + +## 核心转变 + +| 维度 | 早期(2023) | 现在(2025-2026) | +|------|-------------|-------------------| +| 谁管理记忆 | 开发者硬编码 | Agent 自主决策 | +| 存储方式 | 全塞向量库 | 分层(工作/短期/长期/程序) | +| 检索方式 | 向量相似度 | 多策略(向量+图谱+时序+语义) | +| 跨 Agent 共享 | 不支持 | MCP 标准化共享 | +| 经验学习 | 无 | 程序记忆 / auto-memory | diff --git a/06-MCP与工具记忆.md b/06-MCP与工具记忆.md new file mode 100644 index 0000000..6107e6c --- /dev/null +++ b/06-MCP与工具记忆.md @@ -0,0 +1,94 @@ +# MCP 与工具记忆 + +> Model Context Protocol——让记忆跨工具、跨平台流通的开放标准。 + +## MCP 时间线 + +| 时间 | 事件 | +|------|------| +| 2024.11.25 | Anthropic 发布 MCP 开放标准 | +| 2024.11 | Python 和 TypeScript SDK 发布;预建服务器覆盖 GitHub、Slack、Google Drive、Postgres、Puppeteer | +| 2024.11-2025 初 | 早期采用者:Block、Apollo、Zed、Replit、Codeium、Sourcegraph | +| 2025.04 | 生态爆发:8M+ MCP 服务器下载量(发布时仅 ~100K);5,800+ 服务器;300+ 客户端 | +| 2025 | OpenAI 和 Google DeepMind 采纳 MCP | +| 2025 | C# 和 Java SDK 上线 | +| 2025.12 | Anthropic 将 MCP 捐赠给 Linux 基金会下的 Agentic AI Foundation(AAIF),联合创始方:Anthropic、Block、OpenAI | + +## MCP 如何实现"工具记忆" + +``` +┌─────────────────────────────────────────────┐ +│ AI 模型 │ +│ "用户上次让我用深色主题,这次也用深色" │ +└──────────────┬──────────────────────────────┘ + │ MCP 协议(标准化接口) + │ + ┌──────────┼──────────┐ + │ │ │ + ▼ ▼ ▼ +┌────────┐ ┌────────┐ ┌────────┐ +│ 文件系统 │ │ 数据库 │ │ 知识库 │ +│ MCP │ │ MCP │ │ MCP │ +│ Server │ │ Server │ │ Server │ +└────────┘ └────────┘ └────────┘ + +MCP 服务器暴露两种核心能力: +- Resources(资源):模型可以读取的数据 +- Tools(工具):模型可以调用的操作,包括写入记忆 +``` + +## 记忆相关的 MCP 实践 + +### OpenMemory(Mem0, 2025) + +``` +本地持久记忆存储 + ↓ +MCP Server 暴露记忆读写接口 + ↓ +Claude Desktop / Cursor / Windsurf 等任何 MCP 客户端 + ↓ +AI 在任意工具中都能读写同一份记忆 +``` + +**核心价值**:记忆不再被锁在单个应用里。你在 Claude Desktop 里告诉 AI 的偏好,切换到 Cursor 里也能用。 + +### Claude Code 的 MCP 记忆 + +Claude Code 本身就支持 MCP 服务器,可以: +- 连接外部知识库作为记忆源 +- 通过 MCP 工具读写数据库 +- 接入第三方记忆服务 + +## MCP 之前 vs 之后 + +| 维度 | MCP 之前 | MCP 之后 | +|------|---------|---------| +| 记忆归属 | 锁在各应用内 | 跨应用共享 | +| 接入方式 | 每个 App 自己写适配器 | 标准协议,写一次到处用 | +| 开发者成本 | 为每个 AI 工具单独开发 | 一个 MCP Server 覆盖所有 | +| 用户体验 | 换工具就丢记忆 | 记忆跟着用户走 | +| 生态 | 碎片化 | 5,800+ 服务器的统一生态 | + +## 5 个月从 0 到 5,800+ + +``` +MCP 服务器数量: + +5800 ┤ ████ + │ █████████ + │ ██████████████ + │ █████████████████ + │ ████████████████████████ + │ ████████████████████████████ + │ ██████████████████████████████████ + 100 ┤ █████ + │ ████ + 0 ┤█ + └──────────────────────────────────────────── + 2024.11 2025.04 +``` + +这个增速说明了两件事: +1. AI 工具确实需要标准化的外部数据接入 +2. 开发者社区对"AI 记忆可插拔"有强烈需求 diff --git a/07-注意力机制演进.md b/07-注意力机制演进.md new file mode 100644 index 0000000..d5db6ef --- /dev/null +++ b/07-注意力机制演进.md @@ -0,0 +1,83 @@ +# 注意力机制演进 + +> 大上下文窗口背后的底层技术支撑——没有这些创新,1M tokens 就只是理论数字。 + +## 核心问题 + +原始 Transformer 的自注意力复杂度是 O(n^2): +- 4K tokens → 1600 万次计算 +- 128K tokens → 163 亿次计算 +- 1M tokens → 1 万亿次计算 + +不解决这个问题,长上下文就是空谈。 + +## 关键创新时间线 + +| 时间 | 创新 | 影响 | +|------|------|------| +| 2017.06 | **原始 Transformer / 自注意力** | "Attention Is All You Need";O(n^2) 复杂度限制了上下文长度 | +| 2019-2020 | **稀疏注意力变体** | Longformer、BigBird;降低注意力复杂度,支持更长序列 | +| 2022.05.27 | **FlashAttention** | IO 感知的精确注意力 + 分块计算;2-4x 加速;让长上下文训练变得实际可行 | +| 2023 | **FlashAttention-2** | 更好的并行和工作分配 | +| 2023.08 | **Ring Attention** | 分块并行 Transformer;将注意力计算分布到多设备,理论上支持"无限"上下文 | +| 2023.11 | **Striped Attention** | 优化 Ring Attention 在因果 Transformer 上的效率 | +| 2024 | **FlashAttention-3** | 异步计算 + 低精度支持 | +| 2024.02 | **Ring Attention 处理百万级视频** | 实际验证 1M+ token 处理能力 | + +## FlashAttention:最关键的突破 + +### 传统注意力 + +``` +Q, K, V 矩阵(全在 GPU HBM 中) + ↓ +计算完整 n×n 注意力矩阵(写回 HBM) + ↓ +与 V 相乘(再次读写 HBM) + +问题:GPU 的计算很快,但 HBM 读写是瓶颈 +``` + +### FlashAttention + +``` +Q, K, V 矩阵 + ↓ +分块(Tiling):切成小块放入 SRAM + ↓ +在 SRAM 中完成注意力计算(不写回中间结果) + ↓ +只输出最终结果到 HBM + +效果:减少 HBM 读写次数,2-4x 加速,无精度损失 +``` + +## Ring Attention:分布式长上下文 + +``` +设备 1 设备 2 设备 3 设备 4 +┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ +│ Q块1 │ │ Q块2 │ │ Q块3 │ │ Q块4 │ +│ K块1 │ ──→ │ K块1 │ ──→ │ K块1 │ ──→ │ K块1 │ ──→ (环形传递) +│ V块1 │ │ V块1 │ │ V块1 │ │ V块1 │ +└──────┘ └──────┘ └──────┘ └──────┘ + +KV 块在设备间环形传递,每个设备只需要存储自己的 Q 块 +→ 上下文长度随设备数线性扩展 +→ 理论上:设备数 × 单设备上下文 = 总上下文 +``` + +## 技术栈对应关系 + +| 上下文里程碑 | 底层技术支撑 | +|-------------|-------------| +| 4K → 32K | 模型架构优化(RoPE 位置编码等) | +| 32K → 128K | FlashAttention 让训练可行 | +| 128K → 1M | FlashAttention-2/3 + 稀疏注意力 | +| 1M → 10M | Ring Attention + 分布式计算 | + +## 趋势 + +- **精确注意力没有被抛弃** —— FlashAttention 证明通过 IO 优化,精确注意力也能高效 +- **分布式是长上下文的终极答案** —— Ring Attention 让上下文长度和硬件规模线性相关 +- **硬件在追赶** —— 更大 SRAM、更快 HBM 让长上下文的成本持续下降 diff --git a/AGENTS.md b/AGENTS.md new file mode 100644 index 0000000..a27db2d --- /dev/null +++ b/AGENTS.md @@ -0,0 +1,21 @@ +# AI记忆技术演进 Agent Rules + +## Must Read First + +- `.project.json` 是机器真源:公网链接、快捷登录、凭证引用都以它为准 +- `RULES.md` 是人工规则和部署事实:启动命令、平台、域名、注意事项都写这里 +- 不允许编造不存在的域名、账号、密码;未知就保持空白并明确标记待补充 + +## Deployment Metadata Contract + +- 任何任务只要新增、删除或修改公网地址,必须在同一次任务里更新 `.project.json` +- `urls[]` 推荐显式写 `type`:`app`、`backend`、`docs`、`admin`、`repo` +- 项目专属的网页登录信息,如果允许放进仓库,就写 `.project.json.quick_login` +- 不能直接入库的敏感登录,不要伪造 `quick_login`,改为写 `.project.json.credentials` 引用 +- 数据库密码、API Key、服务器 root 密码,不属于 `quick_login` + +## Completion Gate + +- 部署完成后,不允许在 `.project.json` 缺少最新公网链接的状态下结束任务 +- 部署完成后,必须同步更新 `RULES.md` 的部署事实 +- 如果只更新了代码但没回写部署元数据,这个任务不算完成 diff --git a/CLAUDE.md b/CLAUDE.md new file mode 100644 index 0000000..a27db2d --- /dev/null +++ b/CLAUDE.md @@ -0,0 +1,21 @@ +# AI记忆技术演进 Agent Rules + +## Must Read First + +- `.project.json` 是机器真源:公网链接、快捷登录、凭证引用都以它为准 +- `RULES.md` 是人工规则和部署事实:启动命令、平台、域名、注意事项都写这里 +- 不允许编造不存在的域名、账号、密码;未知就保持空白并明确标记待补充 + +## Deployment Metadata Contract + +- 任何任务只要新增、删除或修改公网地址,必须在同一次任务里更新 `.project.json` +- `urls[]` 推荐显式写 `type`:`app`、`backend`、`docs`、`admin`、`repo` +- 项目专属的网页登录信息,如果允许放进仓库,就写 `.project.json.quick_login` +- 不能直接入库的敏感登录,不要伪造 `quick_login`,改为写 `.project.json.credentials` 引用 +- 数据库密码、API Key、服务器 root 密码,不属于 `quick_login` + +## Completion Gate + +- 部署完成后,不允许在 `.project.json` 缺少最新公网链接的状态下结束任务 +- 部署完成后,必须同步更新 `RULES.md` 的部署事实 +- 如果只更新了代码但没回写部署元数据,这个任务不算完成 diff --git a/README.md b/README.md new file mode 100644 index 0000000..3c25b40 --- /dev/null +++ b/README.md @@ -0,0 +1,59 @@ +# AI 记忆技术演进研究 + +> 记录 AI/LLM 记忆能力从"无状态"到"全面记忆"的技术转变。 + +## 为什么做这个记录 + +AI 的"记忆"经历了剧烈的变革——从 GPT-2 的 1024 tokens 到 Llama 4 Scout 的 1000 万 tokens,从每次对话完全失忆到跨会话持久记忆,从单一上下文到 RAG + Agent + MCP 多层记忆体系。这些变化发生得太快,值得系统性地记录下来。 + +## 演进主线 + +``` +无状态 LLM(2018-2022) + ↓ 每次对话都是全新的,512-4K tokens 上下文 +上下文窗口扩张(2023-2024) + ↓ 4K → 32K → 128K → 200K,信息可以"塞进去" +RAG 检索增强(2023-2024) + ↓ 外部知识库补充上下文,向量数据库兴起 +持久记忆(2024-2025) + ↓ ChatGPT Memory、Claude Memory,跨会话记住用户 +Agent 记忆(2025-2026) + ↓ 自主 Agent 拥有工作记忆+长期存储 +全面记忆时代(2026-) + ↓ 1M+ tokens 上下文 + 持久记忆 + MCP 工具记忆 + Agent 自主管理 +``` + +## 文档目录 + +| 文件 | 内容 | +|------|------| +| [01-上下文窗口演进.md](01-上下文窗口演进.md) | 各模型上下文窗口从 512 到 1000 万的完整时间线 | +| [02-RAG技术演进.md](02-RAG技术演进.md) | 从 RAG 论文到 GraphRAG、Agentic RAG 的发展 | +| [03-持久记忆系统.md](03-持久记忆系统.md) | MemGPT、ChatGPT Memory、Claude Memory 等方案 | +| [04-微调与对齐.md](04-微调与对齐.md) | LoRA/QLoRA/RLHF/DPO——通过训练"写入"记忆 | +| [05-Agent记忆架构.md](05-Agent记忆架构.md) | 从 AutoGPT 到 Claude Agent SDK 的记忆设计 | +| [06-MCP与工具记忆.md](06-MCP与工具记忆.md) | MCP 协议如何让记忆跨工具、跨平台流通 | +| [07-注意力机制演进.md](07-注意力机制演进.md) | FlashAttention / Ring Attention——大上下文的底层支撑 | + +## 关键数字速览 + +| 指标 | 起点 | 现在(2026.3) | 倍数 | +|------|------|----------------|------| +| 最大上下文窗口 | 512 tokens(GPT-1, 2018) | 10M tokens(Llama 4 Scout, 2025) | ~20,000x | +| 主流上下文窗口 | 4K tokens(GPT-3.5, 2022) | 1M tokens(Claude 4.6 / Gemini 2.5) | ~250x | +| 跨会话记忆 | 无 | 标配(ChatGPT / Claude / Cursor 等) | 0→1 | +| 向量数据库 | FAISS 一个库(2017) | 7+ 主流方案(2024) | 生态爆发 | +| 记忆框架 | 无 | Mem0 / Letta / Zep / OpenMemory 等 | 从零到生态 | +| MCP 服务器 | 0(2024.11 前) | 5,800+(2025.4) | 5 个月爆发 | + +## 核心洞察 + +1. **上下文窗口不是终极方案** —— 即使有 1M tokens,仍需 RAG 和持久记忆补充 +2. **记忆从产品特性变成基础设施** —— MCP 让记忆成为可插拔的标准化层 +3. **Agent 让记忆从被动变主动** —— 不再是"用户塞进去",而是 AI 自己管理记忆 +4. **多层记忆架构成为共识** —— 工作记忆 + 短期记忆 + 长期记忆,类比人脑 +5. **开源追赶速度极快** —— Llama 4 Scout 10M 上下文,Qwen 2.5 1M,差距在缩小 + +--- + +*立项 2025.07 · 持续更新中 · 最后更新 2026.03.18* diff --git a/RULES.md b/RULES.md new file mode 100644 index 0000000..e2a3192 --- /dev/null +++ b/RULES.md @@ -0,0 +1,29 @@ +# AI记忆技术演进 + +> AI 记忆技术演进研究展示页面 + +## 启动 + +- `python3 -m http.server 3724` — 端口 3724 + +## 技术栈 + +- HTML + +## 目录结构 + +- `01-上下文窗口演进.md` +- `02-RAG技术演进.md` +- `03-持久记忆系统.md` +- `04-微调与对齐.md` +- `05-Agent记忆架构.md` +- `06-MCP与工具记忆.md` +- `07-注意力机制演进.md` +- `README.md` +- `index.html` + +## 规则 + +- 开发端口 3724,不要随意更改 +- 保持现有技术栈(HTML),不要引入新框架 +- 单文件或轻量项目,保持简洁,不要过度工程化 diff --git a/index.html b/index.html new file mode 100644 index 0000000..d8ea755 --- /dev/null +++ b/index.html @@ -0,0 +1,795 @@ + + + + + +AI 记忆技术演进 + + + + + +
+ +
+ + +
+ + +
+

AI 记忆技术演进研究

+

记录 AI/LLM 记忆能力从"无状态"到"全面记忆"的技术转变

+ +

演进主线

+
+
无状态 LLM(2018-2022)
每次对话都是全新的,512-4K tokens
+
+
上下文窗口扩张(2023-2024)
4K → 32K → 128K → 200K
+
+
RAG 检索增强(2023-2024)
外部知识库补充上下文,向量数据库兴起
+
+
持久记忆(2024-2025)
ChatGPT Memory、Claude Memory,跨会话记住用户
+
+
Agent 记忆(2025-2026)
自主 Agent 拥有工作记忆 + 长期存储
+
+
+ 全面记忆时代(2026-)
1M+ 上下文 + 持久记忆 + MCP 工具记忆 + Agent 自主管理
+
+
+ +

关键数字速览

+
+
+
最大上下文窗口
+
~20,000x
+
512 → 10M tokens
+
+
+
主流上下文窗口
+
~250x
+
4K → 1M tokens
+
+
+
跨会话记忆
+
0 → 1
+
从无到标配
+
+
+
MCP 服务器
+
5,800+
+
5 个月从 0 到生态
+
+
+
向量数据库
+
7+
+
主流方案
+
+
+
记忆框架
+
从零到生态
+
Mem0 / Letta / Zep / OpenMemory
+
+
+ +
+
核心洞察
+

1. 上下文窗口不是终极方案 —— 即使有 1M tokens,仍需 RAG 和持久记忆补充

+

2. 记忆从产品特性变成基础设施 —— MCP 让记忆成为可插拔的标准化层

+

3. Agent 让记忆从被动变主动 —— AI 自己管理记忆,不再靠用户塞入

+

4. 多层记忆架构成为共识 —— 工作记忆 + 短期 + 长期,类比人脑

+

5. 开源追赶速度极快 —— Llama 4 Scout 10M,Qwen 2.5 1M

+
+ + +
+ + +
+

01 / 上下文窗口演进

+

从 512 tokens 到 1000 万 tokens,AI 的"工作记忆"扩大了近 20,000 倍

+ +

OpenAI GPT 系列

+
+ + + + + + + + + + + +
模型发布时间上下文窗口备注
GPT-12018.06512最初的 Transformer LM
GPT-22019.021,0241.5B 参数
GPT-32020.052,048175B 参数,few-shot 涌现
GPT-3.5 / ChatGPT2022.11.304,096聊天界面上线,AI 出圈
GPT-42023.03.148K / 32K多模态,两个上下文版本
GPT-4 Turbo2023.11.06128KDevDay 发布
GPT-4o2024.05.13128K全模态,速度更快
o12024.12.05200K100K 输出 tokens
GPT-4.12025.04.141M含 mini 和 nano 变体
o32025.04200K与 o4-mini 同期
+ +

Anthropic Claude 系列

+
+ + + + + + + + + + + +
模型发布时间上下文窗口备注
Claude 12023.039K首次 API 发布
Claude 22023.07.11100K从 9K 跳到 100K,里程碑
Claude 2.12023.11.21200K翻倍
Claude 3 家族2024.03.04200KHaiku / Sonnet / Opus
Claude 3.5 Sonnet2024.06.20200K性能超 Opus
Claude 3.7 Sonnet2025.02.25200KExtended Thinking
Claude Opus 42025.05.22200K最强编程模型
Claude Sonnet 4.52025.09.29200K (1M beta)1M Beta 测试
Claude Opus 4.62026.02.051M1M GA,128K 输出
Claude Sonnet 4.62026.02.171M1M GA,64K 输出
+ +

Google Gemini 系列

+
+ + + + + + +
模型发布时间上下文窗口备注
Gemini 1.02023.12.0632KUltra / Pro / Nano
Gemini 1.5 Pro2024.02.151M首个 1M 上下文模型
Gemini 1.5 Pro 扩展2024 年中2MGoogle I/O 翻倍
Gemini 2.0 Flash2024.121MAgentic 时代开启
Gemini 2.5 Flash2025.05.201M混合思考控制
+ +

开源模型

+
+ + + + + + + + + + + + + +
模型发布时间上下文窗口系列
LLaMA 12023.022,048Meta Llama
Llama 22023.074,096
Llama 32024.048,192
Llama 3.12024.07128K
Llama 4 Scout2025.0410M
Mistral 7B2023.108K (滑动窗口 32K)Mistral AI
Mixtral 8x7B2023.1232K
Qwen 12023.088K阿里 Qwen
Qwen 2.52024.09128K
Qwen 2.5-1M2025.011M
DeepSeek-V32024.12128KDeepSeek
DeepSeek-R12025.01128K
+ +

关键转折点

+
+
2023.07 — Claude 2
首次突破 100K,证明长上下文可行
+
2024.02 — Gemini 1.5 Pro
首个 1M 上下文,开启百万 token 时代
+
2024.07 — Llama 3.1
开源阵营跟进到 128K
+
2025.04 — GPT-4.1
OpenAI 进入 1M 时代
+
2025.04 — Llama 4 Scout
10M tokens,开源超越闭源上下文长度
+
+
+ + +
+

02 / RAG 技术演进

+

检索增强生成——让 AI 在有限上下文内"记住"无限知识

+ +

核心论文时间线

+
+
2017.03 — FAISS
Facebook AI 相似度搜索库,向量检索的基础设施
+
2020.02 — REALM
Google,检索增强语言模型预训练,可微分检索器
+
2020.05 — RAG 论文
Facebook/Meta AI,Lewis 等,组合 DPR + BART,奠定 RAG 范式
+
2022.10 — LangChain
Harrison Chase 创建,让 RAG 管道构建平民化
+
2023.10 — Self-RAG
LLM 自主决定是否检索、检索什么,通过反射 token 自我评估
+
2024.01 — Corrective RAG
增加评估器判断检索结果相关性,不相关则触发补充搜索
+
2024.07 — GraphRAG
Microsoft 开源,用知识图谱增强 RAG,GitHub 10K+ stars
+
+ +

从 Naive 到 Advanced 到 Agentic

+ +

Naive RAG(2022-2023)

+
文档 → 分块 → 向量化 → 存入向量数据库
+用户提问 → 向量化 → 相似度搜索 → Top-K → 拼入 Prompt → LLM 生成
+

问题:检索质量不稳定、缺乏自我纠错、无法处理复杂查询。

+ +

Advanced RAG(2023-2024)

+
+ + + + +
方法改进点
Self-RAGLLM 学会自主决定是否检索,通过反射 token 自我评估
CRAG评估器判断相关性,不相关时自动 Web 搜索补充
GraphRAG从文档中提取知识图谱,支持全局摘要查询
+ +

Agentic RAG(2024-2025)

+
+
用户提问
+
+
Agent 路由器
判断是否需要检索、从哪里检索
+
+
+ 向量数据库 + 知识图谱 + Web 搜索 +
+
+
Agent 评估器
结果够不够好?需不需要再查?
+
+
LLM 生成 → 自检 → 输出
+
+ +

向量数据库生态

+
+ + + + + + + + +
数据库创建时间类型特点
FAISS2017.03Facebook,行业基石
Weaviate2018 末开源 DB最早的专用向量搜索数据库
Milvus2019开源 DB分布式架构
Pinecone2019云托管全托管服务,开箱即用
pgvector2021.04PG 扩展给 Postgres 加向量能力
Qdrant2021开源 DBRust 编写,高性能
Chroma2022.10开源 DB$18M 种子轮,开发体验好
+ +

RAG vs 长上下文

+
+
+

长上下文

+

适合 < 1M tokens 的数据量
全局理解好
上下文越长延迟越高
全量 token 计费

+
+
+

RAG

+

数据量无上限
可能漏检
检索本身很快
只检索相关片段,成本低

+
+
+
+
结论
+

不是替代关系。1M 上下文适合"全局理解",RAG 适合"海量知识精准检索"。实际应用中两者经常组合使用。

+
+
+ + +
+

03 / 持久记忆系统

+

从"每次对话都是陌生人"到"AI 记住你是谁"

+ +

MemGPT / Letta

+
+
核心思想:借鉴操作系统虚拟内存
+
+

2023.10.12 — MemGPT 论文发布,"Towards LLMs as Operating Systems"

+

2024.09 — MemGPT 更名为 Letta(MemGPT 变成设计模式名)

+
+
+
主上下文(有限 token)← 类比 RAM
+    ↕ 自动换入换出
+归档存储(无限)← 类比磁盘
+
+LLM 自主决定什么信息保留在"工作记忆"中,
+什么信息归档到长期存储,需要时再调回来。
+ +

ChatGPT Memory

+
+
2024.02
OpenAI 发布 ChatGPT Memory 功能(测试)
+
2024.09.05
Memory 向 Free / Plus / Team / Enterprise 开放
+
2025.04.10
Memory 扩展为参考所有历史对话做个性化
+
2025.06.03
免费用户也获得轻量级跨会话连续性
+
+ +

Claude 记忆体系

+
+
2024.06
Claude Projects 上线 — 持久工作区 + 文档 + 自定义指令
+
2024.09.12
Team / Enterprise 用户推出记忆功能
+
2026.03
记忆功能向所有 Claude 用户开放
+
+
+
Claude Code 的记忆系统(开发者工具)
+
+

~/.claude/projects/<project>/memory/ 目录存放持久记忆

+

CLAUDE.md 文件作为项目级和用户级持久指令

+

自动记忆:积累构建命令、调试经验、架构笔记、代码风格偏好

+
+
+ +

IDE 记忆系统

+
+
+

Cursor

+

Cursor Rules(.cursorrules 文件)
社区 Memory Banks 方案
无内置自动记忆

+
+
+

Windsurf

+

Memories 系统:自动 + 手动
AI 对话中识别重要信息
深层上下文不跨会话持久

+
+
+ +

记忆框架

+
+ + + + +
框架时间说明
Zep2023基于时序知识图谱,底层用 Graphiti;社区版已停更,转向 Cloud
Mem02024;A 轮 $24M通用 AI 记忆层,自动提取、压缩、检索关键事实;YC 孵化
OpenMemory2025本地持久记忆(基于 MCP),支持多个 AI 客户端
+ +

从无到有的转变

+
+
2022 以前
完全无状态,每次对话从零开始
+
2023
MemGPT 提出分层记忆概念(学术)
+
2024 上半年
ChatGPT Memory + Claude Projects(产品化)
+
2024 下半年
记忆框架涌现 + IDE 集成记忆
+
2025
记忆成为标配,MCP 让记忆跨平台
+
2026
AI 主动管理自己的记忆
+
+
+ + +
+

04 / 微调与对齐

+

如果上下文是 AI 的"短期记忆",那微调就是"长期记忆写入"

+ +

OpenAI 微调 API 时间线

+
+ + + + + + + +
时间事件
2020-2022GPT-3 微调可用(davinci / curie / babbage / ada)
2023.08.22GPT-3.5 Turbo 微调上线
2023 末-2024 初GPT-4 微调开放(实验性)
2024.08.20GPT-4o 微调 GA($25/M 训练 tokens)
2024.12强化微调(RFT)Alpha,"12 Days of OpenAI"
2025.05RFT GA + GPT-4.1 nano 监督微调
+ +

参数高效微调突破

+ +
+
LoRA — 低秩适配(2021.06)
+
+
原始权重矩阵 W (d×d)  ← 冻结
+           +
+低秩分解 ΔW = A(d×r) × B(r×d)  ← 可训练,r << d
+
+训练参数量:从数十亿 → 数百万(减少 99%+)
+

让普通开发者也能在消费级 GPU 上微调大模型。

+
+
+ +
+
QLoRA(2023.05.23)
+
+
4-bit 量化模型 + LoRA 适配器
+→ 65B 模型在单张 48GB GPU 上微调
+→ 成本再降一个数量级
+
+
+ +

对齐方法演进

+
+ + + + +
时间方法意义
2022.01RLHF强化学习 + 人类反馈,GPT-3 学会遵循指令;成为行业标准
2023.05.29DPO直接偏好优化,跳过奖励模型,比 RLHF 简单得多
2024-2025ORPO / SimPO / KTO在 DPO 基础上继续简化对齐流程
+ +

微调 vs 其他记忆方式

+
+ + + + + + +
维度微调上下文 / RAG持久记忆
写入速度慢(需训练)即时即时
持久性永久(进入参数)会话级 / 检索级跨会话
灵活性
成本
适用场景领域知识、风格实时信息用户偏好
+ +
+
趋势
+

微调的角色从"主角"变成"专用工具":不再用微调来补充知识(1M 上下文 + RAG 更高效),而是专注于行为和风格的定制。

+
+
+ + +
+

05 / Agent 记忆架构

+

从"人类管理 AI 的记忆"到"AI 自己管理自己的记忆"

+ +

早期自主 Agent(2023)

+
+ + + + +
Agent上线时间记忆方案
AutoGPT2023.03Pinecone 向量数据库 → 后简化为本地文件。5 个月 100K+ stars
BabyAGI2023.03任务循环 + 向量记忆(Pinecone)
AgentGPT2023.03浏览器端自主 Agent
+

早期特点:记忆方案粗糙,向量数据库当万能解法,经常"记了但找不到"。

+ +

框架记忆模块

+ +
+
LangChain(2022.10 上线)
+
+

ConversationBufferMemory 保留全部历史(简单,token 爆炸)

+

ConversationSummaryMemory LLM 总结历史(省 token,丢细节)

+

VectorStoreRetrieverMemory 存入向量库,按相关性检索

+
+
+ +
+
LangGraph(2024 上线)
+
+

基于状态的记忆 + checkpointing 机制

+

线程级持久化,2025 初长期记忆支持上线

+
+
+ +
+
CrewAI(2024)— 四种记忆类型
+
+

短期记忆 当前任务上下文

+

长期记忆 跨任务持久化

+

实体记忆 关于人/物/概念的结构化信息

+

程序记忆 "怎么做"的经验积累

+
+
+ +

Agent SDK

+
+ + + +
SDK发布时间核心特性
OpenAI Agents SDK2025.03Swarm 生产级演进;Agents / Handoffs / Guardrails / Tools
Claude Agent SDK2025与 Claude Code 同基础设施;文件编辑 + 命令执行 + MCP
+ +

核心转变

+
+ + + + + + +
维度早期(2023)现在(2025-2026)
谁管理记忆开发者硬编码Agent 自主决策
存储方式全塞向量库分层(工作/短期/长期/程序)
检索方式向量相似度多策略混合
跨 Agent 共享不支持MCP 标准化共享
经验学习程序记忆 / auto-memory
+
+ + +
+

06 / MCP 与工具记忆

+

Model Context Protocol——让记忆跨工具、跨平台流通的开放标准

+ +

MCP 时间线

+
+
2024.11.25
Anthropic 发布 MCP 开放标准 + Python / TypeScript SDK
+
2024.11-2025 初
早期采用者:Block、Apollo、Zed、Replit、Codeium、Sourcegraph
+
2025.04
生态爆发:8M+ 下载5,800+ 服务器300+ 客户端
+
2025
OpenAI 和 Google DeepMind 采纳 MCP;C# / Java SDK 上线
+
2025.12
MCP 捐赠给 Linux 基金会下的 AAIF(Anthropic + Block + OpenAI 联合创始)
+
+ +

MCP 如何实现工具记忆

+
┌─────────────────────────────┐
+│          AI 模型             │
+│  "用户上次用深色主题"         │
+└──────────┬──────────────────┘
+           │ MCP 协议(标准化接口)
+    ┌──────┼──────┐
+    ▼      ▼      ▼
+┌──────┐┌──────┐┌──────┐
+│文件系统││数据库 ││知识库 │
+│Server ││Server││Server│
+└──────┘└──────┘└──────┘
+
+Resources(资源)→ 模型可读取的数据
+Tools(工具)→ 模型可调用的操作,含写入记忆
+ +

记忆相关 MCP 实践

+
+
OpenMemory(Mem0, 2025)
+
+

本地持久记忆 → MCP Server 暴露读写接口 → 任何 MCP 客户端均可访问

+

核心价值:在 Claude Desktop 里告诉 AI 的偏好,切换到 Cursor 也能用。记忆不再被锁在单个应用里。

+
+
+ +

MCP 前 vs 后

+
+ + + + + + +
维度MCP 之前MCP 之后
记忆归属锁在各应用内跨应用共享
接入方式每个 App 自己写适配器标准协议,写一次到处用
开发成本为每个 AI 工具单独开发一个 Server 覆盖所有
用户体验换工具就丢记忆记忆跟着用户走
生态碎片化5,800+ 服务器统一生态
+ +
+
+
发布时服务器数
+
~100
+
2024.11
+
+
+
5 个月后
+
5,800+
+
2025.04
+
+
+
总下载量
+
8M+
+
2025.04
+
+
+
客户端数
+
300+
+
2025.04
+
+
+
+ + +
+

07 / 注意力机制演进

+

大上下文窗口背后的底层技术支撑——没有这些创新,1M tokens 就只是理论数字

+ +

核心问题:O(n^2) 复杂度

+
+
+
4K tokens
+
1600 万
+
次注意力计算
+
+
+
128K tokens
+
163 亿
+
次注意力计算
+
+
+
1M tokens
+
1 万亿
+
次注意力计算
+
+
+

不解决这个问题,长上下文就是空谈。

+ +

关键创新时间线

+
+ + + + + + + + +
时间创新影响
2017.06原始 Transformer"Attention Is All You Need";O(n^2) 复杂度
2019-2020稀疏注意力Longformer / BigBird;降低复杂度
2022.05FlashAttentionIO 感知精确注意力 + 分块;2-4x 加速
2023FlashAttention-2更好的并行和工作分配
2023.08Ring Attention分块并行,分布到多设备,理论"无限"上下文
2024FlashAttention-3异步计算 + 低精度支持
2024.02Ring Attention 百万级实际验证 1M+ token 处理能力
+ +

FlashAttention:最关键的突破

+
+
+

传统注意力

+
Q, K, V 全在 GPU HBM
+  ↓
+计算完整 n×n 矩阵
+(写回 HBM)
+  ↓
+与 V 相乘
+(再次读写 HBM)
+
+瓶颈:HBM 读写
+
+
+

FlashAttention

+
Q, K, V 分块
+  ↓
+切成小块放入 SRAM
+  ↓
+SRAM 中完成计算
+(不写回中间结果)
+  ↓
+只输出最终结果到 HBM
+
+效果:2-4x 加速,无精度损失
+
+
+ +

Ring Attention:分布式长上下文

+
设备 1        设备 2        设备 3        设备 4
+┌──────┐    ┌──────┐    ┌──────┐    ┌──────┐
+│ Q块1  │    │ Q块2  │    │ Q块3  │    │ Q块4  │
+│ K块1  │ →  │ K块1  │ →  │ K块1  │ →  │ K块1  │ → (环形传递)
+│ V块1  │    │ V块1  │    │ V块1  │    │ V块1  │
+└──────┘    └──────┘    └──────┘    └──────┘
+
+KV 块在设备间环形传递,每个设备只存储自己的 Q 块
+→ 上下文长度随设备数线性扩展
+ +

技术栈对应关系

+
+ + + + + +
上下文里程碑底层技术支撑
4K → 32K模型架构优化(RoPE 位置编码等)
32K → 128KFlashAttention 让训练可行
128K → 1MFlashAttention-2/3 + 稀疏注意力
1M → 10MRing Attention + 分布式计算
+ +
+
趋势
+

精确注意力没有被抛弃 — FlashAttention 证明通过 IO 优化,精确注意力也能高效。

+

分布式是终极答案 — Ring Attention 让上下文长度与硬件规模线性相关。

+

硬件在追赶 — 更大 SRAM、更快 HBM 让长上下文成本持续下降。

+
+ + +
+ +
+
+ + + +