69 lines
2.4 KiB
Markdown
69 lines
2.4 KiB
Markdown
# 微调与对齐——通过训练"写入"记忆
|
||
|
||
> 如果上下文是 AI 的"短期记忆",那微调就是"长期记忆写入"。
|
||
|
||
## 微调 API 时间线
|
||
|
||
### OpenAI
|
||
|
||
| 时间 | 事件 |
|
||
|------|------|
|
||
| 2020-2022 | GPT-3 微调可用(davinci/curie/babbage/ada) |
|
||
| 2023.08.22 | GPT-3.5 Turbo 微调上线 |
|
||
| 2023 末-2024 初 | GPT-4 微调开放(实验性) |
|
||
| 2024.08.20 | GPT-4o 微调 GA($25/M 训练 tokens) |
|
||
| 2024.12 | 强化微调(RFT)Alpha 发布,"12 Days of OpenAI" |
|
||
| 2025.05 | RFT GA,支持 o4-mini($100/hr 训练) |
|
||
| 2025.05 | GPT-4.1 nano 监督微调可用 |
|
||
|
||
## 参数高效微调(PEFT)突破
|
||
|
||
### LoRA(2021.06)
|
||
|
||
**论文**:arXiv:2106.09685,"Low-Rank Adaptation of Large Language Models"
|
||
|
||
```
|
||
原始权重矩阵 W (d×d) ← 冻结
|
||
+
|
||
低秩分解 ΔW = A(d×r) × B(r×d) ← 可训练,r << d
|
||
|
||
训练参数量:从数十亿 → 数百万(减少 99%+)
|
||
```
|
||
|
||
**影响**:让普通开发者也能在消费级 GPU 上微调大模型,将知识"写入"模型参数。
|
||
|
||
### QLoRA(2023.05.23)
|
||
|
||
**论文**:arXiv:2305.14314
|
||
|
||
```
|
||
4-bit 量化模型 + LoRA 适配器
|
||
→ 65B 模型在单张 48GB GPU 上微调
|
||
→ 成本再降一个数量级
|
||
```
|
||
|
||
## 对齐方法——教 AI "如何思考"
|
||
|
||
| 时间 | 方法 | 论文 | 意义 |
|
||
|------|------|------|------|
|
||
| 2022.01 | **InstructGPT / RLHF** | OpenAI | 强化学习+人类反馈,GPT-3 学会遵循指令;成为行业标准 |
|
||
| 2023.05.29 | **DPO** | arXiv:2305.18290 | 直接偏好优化,跳过奖励模型,直接在偏好数据对上训练;比 RLHF 简单得多 |
|
||
| 2024-2025 | ORPO / SimPO / KTO | 各种 | 在 DPO 基础上继续简化对齐流程 |
|
||
|
||
## 微调 vs 其他记忆方式
|
||
|
||
| 维度 | 微调 | 上下文/RAG | 持久记忆 |
|
||
|------|------|-----------|---------|
|
||
| 写入速度 | 慢(需要训练) | 即时 | 即时 |
|
||
| 持久性 | 永久(进入参数) | 会话级 / 检索级 | 跨会话 |
|
||
| 灵活性 | 低(改了就改了) | 高(随时替换) | 中 |
|
||
| 成本 | 高 | 低 | 低 |
|
||
| 适用场景 | 领域专业知识、风格迁移 | 实时信息、用户数据 | 用户偏好、历史 |
|
||
|
||
## 趋势
|
||
|
||
微调在记忆体系中的角色正在从"主角"变成"专用工具":
|
||
- **不再用微调来补充知识** —— 1M 上下文 + RAG 更高效
|
||
- **微调专注于行为和风格** —— 教模型"怎么做"而非"知道什么"
|
||
- **对齐方法持续简化** —— 从 RLHF 到 DPO 到更轻量的变体
|