微调与对齐——通过训练"写入"记忆

如果上下文是 AI 的"短期记忆"，那微调就是"长期记忆写入"。

微调 API 时间线

时间	事件
2020-2022	GPT-3 微调可用（davinci/curie/babbage/ada）
2023.08.22	GPT-3.5 Turbo 微调上线
2023 末-2024 初	GPT-4 微调开放（实验性）
2024.08.20	GPT-4o 微调 GA（$25/M 训练 tokens）
2024.12	强化微调（RFT）Alpha 发布，"12 Days of OpenAI"
2025.05	RFT GA，支持 o4-mini（$100/hr 训练）
2025.05	GPT-4.1 nano 监督微调可用

论文：arXiv:2106.09685，"Low-Rank Adaptation of Large Language Models"

原始权重矩阵 W (d×d)  ← 冻结
              +
低秩分解 ΔW = A(d×r) × B(r×d)  ← 可训练，r << d

训练参数量：从数十亿 → 数百万（减少 99%+）

影响：让普通开发者也能在消费级 GPU 上微调大模型，将知识"写入"模型参数。

论文：arXiv:2305.14314

4-bit 量化模型 + LoRA 适配器
→ 65B 模型在单张 48GB GPU 上微调
→ 成本再降一个数量级

时间	方法	论文	意义
2022.01	InstructGPT / RLHF	OpenAI	强化学习+人类反馈，GPT-3 学会遵循指令；成为行业标准
2023.05.29	DPO	arXiv:2305.18290	直接偏好优化，跳过奖励模型，直接在偏好数据对上训练；比 RLHF 简单得多
2024-2025	ORPO / SimPO / KTO	各种	在 DPO 基础上继续简化对齐流程

维度	微调	上下文/RAG	持久记忆
写入速度	慢（需要训练）	即时	即时
持久性	永久（进入参数）	会话级 / 检索级	跨会话
灵活性	低（改了就改了）	高（随时替换）	中
成本	高	低	低
适用场景	领域专业知识、风格迁移	实时信息、用户数据	用户偏好、历史

微调在记忆体系中的角色正在从"主角"变成"专用工具"：