# 微调与对齐——通过训练"写入"记忆 > 如果上下文是 AI 的"短期记忆",那微调就是"长期记忆写入"。 ## 微调 API 时间线 ### OpenAI | 时间 | 事件 | |------|------| | 2020-2022 | GPT-3 微调可用(davinci/curie/babbage/ada) | | 2023.08.22 | GPT-3.5 Turbo 微调上线 | | 2023 末-2024 初 | GPT-4 微调开放(实验性) | | 2024.08.20 | GPT-4o 微调 GA($25/M 训练 tokens) | | 2024.12 | 强化微调(RFT)Alpha 发布,"12 Days of OpenAI" | | 2025.05 | RFT GA,支持 o4-mini($100/hr 训练) | | 2025.05 | GPT-4.1 nano 监督微调可用 | ## 参数高效微调(PEFT)突破 ### LoRA(2021.06) **论文**:arXiv:2106.09685,"Low-Rank Adaptation of Large Language Models" ``` 原始权重矩阵 W (d×d) ← 冻结 + 低秩分解 ΔW = A(d×r) × B(r×d) ← 可训练,r << d 训练参数量:从数十亿 → 数百万(减少 99%+) ``` **影响**:让普通开发者也能在消费级 GPU 上微调大模型,将知识"写入"模型参数。 ### QLoRA(2023.05.23) **论文**:arXiv:2305.14314 ``` 4-bit 量化模型 + LoRA 适配器 → 65B 模型在单张 48GB GPU 上微调 → 成本再降一个数量级 ``` ## 对齐方法——教 AI "如何思考" | 时间 | 方法 | 论文 | 意义 | |------|------|------|------| | 2022.01 | **InstructGPT / RLHF** | OpenAI | 强化学习+人类反馈,GPT-3 学会遵循指令;成为行业标准 | | 2023.05.29 | **DPO** | arXiv:2305.18290 | 直接偏好优化,跳过奖励模型,直接在偏好数据对上训练;比 RLHF 简单得多 | | 2024-2025 | ORPO / SimPO / KTO | 各种 | 在 DPO 基础上继续简化对齐流程 | ## 微调 vs 其他记忆方式 | 维度 | 微调 | 上下文/RAG | 持久记忆 | |------|------|-----------|---------| | 写入速度 | 慢(需要训练) | 即时 | 即时 | | 持久性 | 永久(进入参数) | 会话级 / 检索级 | 跨会话 | | 灵活性 | 低(改了就改了) | 高(随时替换) | 中 | | 成本 | 高 | 低 | 低 | | 适用场景 | 领域专业知识、风格迁移 | 实时信息、用户数据 | 用户偏好、历史 | ## 趋势 微调在记忆体系中的角色正在从"主角"变成"专用工具": - **不再用微调来补充知识** —— 1M 上下文 + RAG 更高效 - **微调专注于行为和风格** —— 教模型"怎么做"而非"知道什么" - **对齐方法持续简化** —— 从 RLHF 到 DPO 到更轻量的变体