2.4 KiB
2.4 KiB
微调与对齐——通过训练"写入"记忆
如果上下文是 AI 的"短期记忆",那微调就是"长期记忆写入"。
微调 API 时间线
OpenAI
| 时间 | 事件 |
|---|---|
| 2020-2022 | GPT-3 微调可用(davinci/curie/babbage/ada) |
| 2023.08.22 | GPT-3.5 Turbo 微调上线 |
| 2023 末-2024 初 | GPT-4 微调开放(实验性) |
| 2024.08.20 | GPT-4o 微调 GA($25/M 训练 tokens) |
| 2024.12 | 强化微调(RFT)Alpha 发布,"12 Days of OpenAI" |
| 2025.05 | RFT GA,支持 o4-mini($100/hr 训练) |
| 2025.05 | GPT-4.1 nano 监督微调可用 |
参数高效微调(PEFT)突破
LoRA(2021.06)
论文:arXiv:2106.09685,"Low-Rank Adaptation of Large Language Models"
原始权重矩阵 W (d×d) ← 冻结
+
低秩分解 ΔW = A(d×r) × B(r×d) ← 可训练,r << d
训练参数量:从数十亿 → 数百万(减少 99%+)
影响:让普通开发者也能在消费级 GPU 上微调大模型,将知识"写入"模型参数。
QLoRA(2023.05.23)
论文:arXiv:2305.14314
4-bit 量化模型 + LoRA 适配器
→ 65B 模型在单张 48GB GPU 上微调
→ 成本再降一个数量级
对齐方法——教 AI "如何思考"
| 时间 | 方法 | 论文 | 意义 |
|---|---|---|---|
| 2022.01 | InstructGPT / RLHF | OpenAI | 强化学习+人类反馈,GPT-3 学会遵循指令;成为行业标准 |
| 2023.05.29 | DPO | arXiv:2305.18290 | 直接偏好优化,跳过奖励模型,直接在偏好数据对上训练;比 RLHF 简单得多 |
| 2024-2025 | ORPO / SimPO / KTO | 各种 | 在 DPO 基础上继续简化对齐流程 |
微调 vs 其他记忆方式
| 维度 | 微调 | 上下文/RAG | 持久记忆 |
|---|---|---|---|
| 写入速度 | 慢(需要训练) | 即时 | 即时 |
| 持久性 | 永久(进入参数) | 会话级 / 检索级 | 跨会话 |
| 灵活性 | 低(改了就改了) | 高(随时替换) | 中 |
| 成本 | 高 | 低 | 低 |
| 适用场景 | 领域专业知识、风格迁移 | 实时信息、用户数据 | 用户偏好、历史 |
趋势
微调在记忆体系中的角色正在从"主角"变成"专用工具":
- 不再用微调来补充知识 —— 1M 上下文 + RAG 更高效
- 微调专注于行为和风格 —— 教模型"怎么做"而非"知道什么"
- 对齐方法持续简化 —— 从 RLHF 到 DPO 到更轻量的变体