Files
20250724-882ca434/04-微调与对齐.md
2026-04-25 19:20:45 +08:00

69 lines
2.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 微调与对齐——通过训练"写入"记忆
> 如果上下文是 AI 的"短期记忆",那微调就是"长期记忆写入"。
## 微调 API 时间线
### OpenAI
| 时间 | 事件 |
|------|------|
| 2020-2022 | GPT-3 微调可用davinci/curie/babbage/ada |
| 2023.08.22 | GPT-3.5 Turbo 微调上线 |
| 2023 末-2024 初 | GPT-4 微调开放(实验性) |
| 2024.08.20 | GPT-4o 微调 GA$25/M 训练 tokens |
| 2024.12 | 强化微调RFTAlpha 发布,"12 Days of OpenAI" |
| 2025.05 | RFT GA支持 o4-mini$100/hr 训练) |
| 2025.05 | GPT-4.1 nano 监督微调可用 |
## 参数高效微调PEFT突破
### LoRA2021.06
**论文**arXiv:2106.09685"Low-Rank Adaptation of Large Language Models"
```
原始权重矩阵 W (d×d) ← 冻结
+
低秩分解 ΔW = A(d×r) × B(r×d) ← 可训练r << d
训练参数量:从数十亿 → 数百万(减少 99%+
```
**影响**:让普通开发者也能在消费级 GPU 上微调大模型,将知识"写入"模型参数。
### QLoRA2023.05.23
**论文**arXiv:2305.14314
```
4-bit 量化模型 + LoRA 适配器
→ 65B 模型在单张 48GB GPU 上微调
→ 成本再降一个数量级
```
## 对齐方法——教 AI "如何思考"
| 时间 | 方法 | 论文 | 意义 |
|------|------|------|------|
| 2022.01 | **InstructGPT / RLHF** | OpenAI | 强化学习+人类反馈GPT-3 学会遵循指令;成为行业标准 |
| 2023.05.29 | **DPO** | arXiv:2305.18290 | 直接偏好优化,跳过奖励模型,直接在偏好数据对上训练;比 RLHF 简单得多 |
| 2024-2025 | ORPO / SimPO / KTO | 各种 | 在 DPO 基础上继续简化对齐流程 |
## 微调 vs 其他记忆方式
| 维度 | 微调 | 上下文/RAG | 持久记忆 |
|------|------|-----------|---------|
| 写入速度 | 慢(需要训练) | 即时 | 即时 |
| 持久性 | 永久(进入参数) | 会话级 / 检索级 | 跨会话 |
| 灵活性 | 低(改了就改了) | 高(随时替换) | 中 |
| 成本 | 高 | 低 | 低 |
| 适用场景 | 领域专业知识、风格迁移 | 实时信息、用户数据 | 用户偏好、历史 |
## 趋势
微调在记忆体系中的角色正在从"主角"变成"专用工具"
- **不再用微调来补充知识** —— 1M 上下文 + RAG 更高效
- **微调专注于行为和风格** —— 教模型"怎么做"而非"知道什么"
- **对齐方法持续简化** —— 从 RLHF 到 DPO 到更轻量的变体