Files
20250724-882ca434/README.md
2026-04-25 19:20:45 +08:00

3.0 KiB
Raw Permalink Blame History

AI 记忆技术演进研究

记录 AI/LLM 记忆能力从"无状态"到"全面记忆"的技术转变。

为什么做这个记录

AI 的"记忆"经历了剧烈的变革——从 GPT-2 的 1024 tokens 到 Llama 4 Scout 的 1000 万 tokens从每次对话完全失忆到跨会话持久记忆从单一上下文到 RAG + Agent + MCP 多层记忆体系。这些变化发生得太快,值得系统性地记录下来。

演进主线

无状态 LLM2018-2022
  ↓  每次对话都是全新的512-4K tokens 上下文
上下文窗口扩张2023-2024
  ↓  4K → 32K → 128K → 200K信息可以"塞进去"
RAG 检索增强2023-2024
  ↓  外部知识库补充上下文,向量数据库兴起
持久记忆2024-2025
  ↓  ChatGPT Memory、Claude Memory跨会话记住用户
Agent 记忆2025-2026
  ↓  自主 Agent 拥有工作记忆+长期存储
全面记忆时代2026-
  ↓  1M+ tokens 上下文 + 持久记忆 + MCP 工具记忆 + Agent 自主管理

文档目录

文件 内容
01-上下文窗口演进.md 各模型上下文窗口从 512 到 1000 万的完整时间线
02-RAG技术演进.md 从 RAG 论文到 GraphRAG、Agentic RAG 的发展
03-持久记忆系统.md MemGPT、ChatGPT Memory、Claude Memory 等方案
04-微调与对齐.md LoRA/QLoRA/RLHF/DPO——通过训练"写入"记忆
05-Agent记忆架构.md 从 AutoGPT 到 Claude Agent SDK 的记忆设计
06-MCP与工具记忆.md MCP 协议如何让记忆跨工具、跨平台流通
07-注意力机制演进.md FlashAttention / Ring Attention——大上下文的底层支撑

关键数字速览

指标 起点 现在2026.3 倍数
最大上下文窗口 512 tokensGPT-1, 2018 10M tokensLlama 4 Scout, 2025 ~20,000x
主流上下文窗口 4K tokensGPT-3.5, 2022 1M tokensClaude 4.6 / Gemini 2.5 ~250x
跨会话记忆 标配ChatGPT / Claude / Cursor 等) 0→1
向量数据库 FAISS 一个库2017 7+ 主流方案2024 生态爆发
记忆框架 Mem0 / Letta / Zep / OpenMemory 等 从零到生态
MCP 服务器 02024.11 前) 5,800+2025.4 5 个月爆发

核心洞察

  1. 上下文窗口不是终极方案 —— 即使有 1M tokens仍需 RAG 和持久记忆补充
  2. 记忆从产品特性变成基础设施 —— MCP 让记忆成为可插拔的标准化层
  3. Agent 让记忆从被动变主动 —— 不再是"用户塞进去",而是 AI 自己管理记忆
  4. 多层记忆架构成为共识 —— 工作记忆 + 短期记忆 + 长期记忆,类比人脑
  5. 开源追赶速度极快 —— Llama 4 Scout 10M 上下文Qwen 2.5 1M差距在缩小

立项 2025.07 · 持续更新中 · 最后更新 2026.03.18