Files
20250724-882ca434/04-微调与对齐.md
2026-04-25 19:20:45 +08:00

2.4 KiB
Raw Blame History

微调与对齐——通过训练"写入"记忆

如果上下文是 AI 的"短期记忆",那微调就是"长期记忆写入"。

微调 API 时间线

OpenAI

时间 事件
2020-2022 GPT-3 微调可用davinci/curie/babbage/ada
2023.08.22 GPT-3.5 Turbo 微调上线
2023 末-2024 初 GPT-4 微调开放(实验性)
2024.08.20 GPT-4o 微调 GA$25/M 训练 tokens
2024.12 强化微调RFTAlpha 发布,"12 Days of OpenAI"
2025.05 RFT GA支持 o4-mini$100/hr 训练)
2025.05 GPT-4.1 nano 监督微调可用

参数高效微调PEFT突破

LoRA2021.06

论文arXiv:2106.09685"Low-Rank Adaptation of Large Language Models"

原始权重矩阵 W (d×d)  ← 冻结
              +
低秩分解 ΔW = A(d×r) × B(r×d)  ← 可训练r << d

训练参数量:从数十亿 → 数百万(减少 99%+

影响:让普通开发者也能在消费级 GPU 上微调大模型,将知识"写入"模型参数。

QLoRA2023.05.23

论文arXiv:2305.14314

4-bit 量化模型 + LoRA 适配器
→ 65B 模型在单张 48GB GPU 上微调
→ 成本再降一个数量级

对齐方法——教 AI "如何思考"

时间 方法 论文 意义
2022.01 InstructGPT / RLHF OpenAI 强化学习+人类反馈GPT-3 学会遵循指令;成为行业标准
2023.05.29 DPO arXiv:2305.18290 直接偏好优化,跳过奖励模型,直接在偏好数据对上训练;比 RLHF 简单得多
2024-2025 ORPO / SimPO / KTO 各种 在 DPO 基础上继续简化对齐流程

微调 vs 其他记忆方式

维度 微调 上下文/RAG 持久记忆
写入速度 慢(需要训练) 即时 即时
持久性 永久(进入参数) 会话级 / 检索级 跨会话
灵活性 低(改了就改了) 高(随时替换)
成本
适用场景 领域专业知识、风格迁移 实时信息、用户数据 用户偏好、历史

趋势

微调在记忆体系中的角色正在从"主角"变成"专用工具"

  • 不再用微调来补充知识 —— 1M 上下文 + RAG 更高效
  • 微调专注于行为和风格 —— 教模型"怎么做"而非"知道什么"
  • 对齐方法持续简化 —— 从 RLHF 到 DPO 到更轻量的变体