LLM训练面试题集

Q1: RLHF的三步流程是什么？

答： Step 1 - SFT：用高质量指令-回答对微调基座模型 Step 2 - RM：收集人类偏好排序数据，训练奖励模型 Step 3 - PPO：用RM的信号通过PPO优化策略

核心目标：让模型从"预测下一个token"进阶为"生成友好的回复"

Q2: DPO相比RLHF的优势？

答： DPO直接优化偏好数据，跳过了显式的奖励模型和PPO训练：

不需要训练RM
不需要PPO（训练不稳定）
实现更简单
效果接近RLHF

DPO公式： L = -log σ(β * (log π(y_w)/π_ref(y_w) - log π(y_l)/π_ref(y_l)))

Q3: LoRA为什么低秩分解有效？

答：

微调时的权重更新确实在低秩子空间中（经验验证）
预训练模型已经捕获了通用知识，任务特定知识在低维空间
低秩矩阵BA（r << d）参数量极少但足以捕获微调所需的变化
过参数化的神经网络有内在的低秩性质

Q4: QLoRA中的NF4和双重量化？

NF4 (NormalFloat4)：4-bit数据类型，信息论最优的量化格式
双重量化：对量化常数再进行量化，进一步节省0.4 bit/参数
结果：65B模型在48GB GPU上微调（原本需要~160GB）

Q5: Scaling Law的核心结论？

答： Kaplan (2020): L ∝ N^{-0.076} + D^{-0.095} → 增大模型比增大数据更有效

Chinchilla (2022): 修正 → 模型和数据应该同比例增长 → 大多数模型"参数过多训练不足"

实践：给定预算，Chinchilla优化公式给出最优的N和D

Q6: MoE的核心原理和挑战？

答：原理：用门控网络选择激活部分专家（稀疏激活），而非使用全部参数

挑战：

负载均衡：防止某些专家过载
通信开销：token需要路由到不同GPU的专家
训练稳定性：门控可能需要额外正则化

Q7: 分布式训练的三种并行策略？

策略	原理	通信
数据并行	数据分片，每卡完整模型	Allreduce梯度
张量并行	单层参数切分到多卡	Allreduce激活
流水线并行	不同层放不同卡	P2P传递激活

实践：三者混合使用（3D并行）