20250724-882ca434/04-微调与对齐.md

# 微调与对齐——通过训练"写入"记忆

> 如果上下文是 AI 的"短期记忆"，那微调就是"长期记忆写入"。

## 微调 API 时间线

### OpenAI

| 时间 | 事件 |
|------|------|
| 2020-2022 | GPT-3 微调可用（davinci/curie/babbage/ada） |
| 2023.08.22 | GPT-3.5 Turbo 微调上线 |
| 2023 末-2024 初 | GPT-4 微调开放（实验性） |
| 2024.08.20 | GPT-4o 微调 GA（$25/M 训练 tokens） |
| 2024.12 | 强化微调（RFT）Alpha 发布，"12 Days of OpenAI" |
| 2025.05 | RFT GA，支持 o4-mini（$100/hr 训练） |
| 2025.05 | GPT-4.1 nano 监督微调可用 |

## 参数高效微调（PEFT）突破

### LoRA（2021.06）

**论文**：arXiv:2106.09685，"Low-Rank Adaptation of Large Language Models"

```
原始权重矩阵 W (d×d)  ← 冻结
              +
低秩分解 ΔW = A(d×r) × B(r×d)  ← 可训练，r << d

训练参数量：从数十亿 → 数百万（减少 99%+）
```

**影响**：让普通开发者也能在消费级 GPU 上微调大模型，将知识"写入"模型参数。

### QLoRA（2023.05.23）

**论文**：arXiv:2305.14314

```
4-bit 量化模型 + LoRA 适配器
→ 65B 模型在单张 48GB GPU 上微调
→ 成本再降一个数量级
```

## 对齐方法——教 AI "如何思考"

| 时间 | 方法 | 论文 | 意义 |
|------|------|------|------|
| 2022.01 | **InstructGPT / RLHF** | OpenAI | 强化学习+人类反馈，GPT-3 学会遵循指令；成为行业标准 |
| 2023.05.29 | **DPO** | arXiv:2305.18290 | 直接偏好优化，跳过奖励模型，直接在偏好数据对上训练；比 RLHF 简单得多 |
| 2024-2025 | ORPO / SimPO / KTO | 各种 | 在 DPO 基础上继续简化对齐流程 |

## 微调 vs 其他记忆方式

| 维度 | 微调 | 上下文/RAG | 持久记忆 |
|------|------|-----------|---------|
| 写入速度 | 慢（需要训练） | 即时 | 即时 |
| 持久性 | 永久（进入参数） | 会话级 / 检索级 | 跨会话 |
| 灵活性 | 低（改了就改了） | 高（随时替换） | 中 |
| 成本 | 高 | 低 | 低 |
| 适用场景 | 领域专业知识、风格迁移 | 实时信息、用户数据 | 用户偏好、历史 |

## 趋势

微调在记忆体系中的角色正在从"主角"变成"专用工具"：
- **不再用微调来补充知识** —— 1M 上下文 + RAG 更高效
- **微调专注于行为和风格** —— 教模型"怎么做"而非"知道什么"
- **对齐方法持续简化** —— 从 RLHF 到 DPO 到更轻量的变体