AI/深度学习必读论文清单
阶段一:基础必读(面试能聊)
| # | 论文 | 年份 | 重要性 | 核心贡献 |
|---|---|---|---|---|
| 1 | Attention Is All You Need | 2017 | ★★★★★ | Transformer架构 |
| 2 | Deep Residual Learning (ResNet) | 2015 | ★★★★★ | 残差连接 |
| 3 | Batch Normalization | 2015 | ★★★★★ | 训练稳定性 |
| 4 | Adam: A Method for Stochastic Optimization | 2014 | ★★★★☆ | 优化器基础 |
| 5 | Dropout: A Simple Way to Prevent Overfitting | 2014 | ★★★★☆ | 正则化 |
阶段二:LLM核心
| # | 论文 | 年份 | 说明 |
|---|---|---|---|
| 6 | Language Models are Few-Shot Learners (GPT-3) | 2020 | In-context Learning |
| 7 | Training Language Models to Follow Instructions (InstructGPT) | 2022 | RLHF |
| 8 | LLaMA: Open and Efficient Foundation Models | 2023 | 开源LLM |
| 9 | LoRA: Low-Rank Adaptation | 2021 | 高效微调 |
| 10 | FlashAttention | 2022 | 注意力优化 |
阶段三:对齐与训练
| # | 论文 | 说明 |
|---|---|---|
| 11 | Direct Preference Optimization (DPO) | 直接偏好优化 |
| 12 | QLoRA: Efficient Finetuning | 4-bit量化微调 |
| 13 | Scaling Laws for Neural Language Models | 扩展法则 |
| 14 | Switch Transformers (MoE) | 稀疏激活 |
| 15 | Chinchilla | 训练数据量法则 |
阶段四:前沿技术
| # | 论文 | 说明 |
|---|---|---|
| 16 | RoPE (Rotary Position Embedding) | 旋转位置编码 |
| 17 | PagedAttention (vLLM) | KV Cache管理 |
| 18 | GPTQ / AWQ | 权重量化 |
| 19 | ReAct: Synergizing Reasoning and Acting | Agent范式 |
| 20 | ViT (Vision Transformer) | 视觉Transformer |
阶段五:进阶选读
| 论文 | 方向 |
|---|---|
| DDPM | Diffusion生成模型 |
| CLIP | 图文多模态 |
| LLaVA | 多模态VLM |
| Speculative Decoding | 推理加速 |
| DeepSpeed ZeRO | 分布式训练 |
阅读方法论
1. 先读摘要和结论(5分钟)→ 判断是否值得读
2. 读引言和图表(10分钟)→ 了解核心想法
3. 读方法(20分钟)→ 理解算法
4. 读实验(15分钟)→ 了解效果和tricks
5. 复现代码(2-4小时)→ 真正理解