LLM训练面试题集
Q1: RLHF的三步流程是什么?
答: Step 1 - SFT:用高质量指令-回答对微调基座模型 Step 2 - RM:收集人类偏好排序数据,训练奖励模型 Step 3 - PPO:用RM的信号通过PPO优化策略
核心目标:让模型从"预测下一个token"进阶为"生成友好的回复"
Q2: DPO相比RLHF的优势?
答: DPO直接优化偏好数据,跳过了显式的奖励模型和PPO训练:
- 不需要训练RM
- 不需要PPO(训练不稳定)
- 实现更简单
- 效果接近RLHF
DPO公式: L = -log σ(β * (log π(y_w)/π_ref(y_w) - log π(y_l)/π_ref(y_l)))
Q3: LoRA为什么低秩分解有效?
答:
- 微调时的权重更新确实在低秩子空间中(经验验证)
- 预训练模型已经捕获了通用知识,任务特定知识在低维空间
- 低秩矩阵BA(r << d)参数量极少但足以捕获微调所需的变化
- 过参数化的神经网络有内在的低秩性质
Q4: QLoRA中的NF4和双重量化?
- NF4 (NormalFloat4):4-bit数据类型,信息论最优的量化格式
- 双重量化:对量化常数再进行量化,进一步节省0.4 bit/参数
- 结果:65B模型在48GB GPU上微调(原本需要~160GB)
Q5: Scaling Law的核心结论?
答: Kaplan (2020): L ∝ N^{-0.076} + D^{-0.095} → 增大模型比增大数据更有效
Chinchilla (2022): 修正 → 模型和数据应该同比例增长 → 大多数模型"参数过多训练不足"
实践:给定预算,Chinchilla优化公式给出最优的N和D
Q6: MoE的核心原理和挑战?
答: 原理:用门控网络选择激活部分专家(稀疏激活),而非使用全部参数
挑战:
- 负载均衡:防止某些专家过载
- 通信开销:token需要路由到不同GPU的专家
- 训练稳定性:门控可能需要额外正则化
Q7: 分布式训练的三种并行策略?
| 策略 | 原理 | 通信 |
|---|---|---|
| 数据并行 | 数据分片,每卡完整模型 | Allreduce梯度 |
| 张量并行 | 单层参数切分到多卡 | Allreduce激活 |
| 流水线并行 | 不同层放不同卡 | P2P传递激活 |
实践:三者混合使用(3D并行)