Skip to content

LLM训练面试题集


Q1: RLHF的三步流程是什么?

: Step 1 - SFT:用高质量指令-回答对微调基座模型 Step 2 - RM:收集人类偏好排序数据,训练奖励模型 Step 3 - PPO:用RM的信号通过PPO优化策略

核心目标:让模型从"预测下一个token"进阶为"生成友好的回复"


Q2: DPO相比RLHF的优势?

: DPO直接优化偏好数据,跳过了显式的奖励模型和PPO训练:

  • 不需要训练RM
  • 不需要PPO(训练不稳定)
  • 实现更简单
  • 效果接近RLHF

DPO公式: L = -log σ(β * (log π(y_w)/π_ref(y_w) - log π(y_l)/π_ref(y_l)))


Q3: LoRA为什么低秩分解有效?

  1. 微调时的权重更新确实在低秩子空间中(经验验证)
  2. 预训练模型已经捕获了通用知识,任务特定知识在低维空间
  3. 低秩矩阵BA(r << d)参数量极少但足以捕获微调所需的变化
  4. 过参数化的神经网络有内在的低秩性质

Q4: QLoRA中的NF4和双重量化?

  • NF4 (NormalFloat4):4-bit数据类型,信息论最优的量化格式
  • 双重量化:对量化常数再进行量化,进一步节省0.4 bit/参数
  • 结果:65B模型在48GB GPU上微调(原本需要~160GB)

Q5: Scaling Law的核心结论?

: Kaplan (2020): L ∝ N^{-0.076} + D^{-0.095} → 增大模型比增大数据更有效

Chinchilla (2022): 修正 → 模型和数据应该同比例增长 → 大多数模型"参数过多训练不足"

实践:给定预算,Chinchilla优化公式给出最优的N和D


Q6: MoE的核心原理和挑战?

: 原理:用门控网络选择激活部分专家(稀疏激活),而非使用全部参数

挑战:

  1. 负载均衡:防止某些专家过载
  2. 通信开销:token需要路由到不同GPU的专家
  3. 训练稳定性:门控可能需要额外正则化

Q7: 分布式训练的三种并行策略?

策略原理通信
数据并行数据分片,每卡完整模型Allreduce梯度
张量并行单层参数切分到多卡Allreduce激活
流水线并行不同层放不同卡P2P传递激活

实践:三者混合使用(3D并行)