Skip to content

12个月深入版(每天3小时)

适用于:目标大厂、长期AI职业生涯、准备申博/科研 前提:理工科本科基础、较强自学能力 目标:达到大厂AI算法工程师/研究员水平


总览

阶段时长核心目标
Q112周数学+ML体系 + 代码能力
Q212周深度学习核心 + 论文精读
Q312周LLM深入 + 前沿方向
Q412周科研能力 + 项目 + 面试

Q1: 数学 + 机器学习(Week 1-12)

数学基础(Week 1-8)

线性代数(Week 1-2)

内容

  • 向量空间与线性变换
  • 矩阵运算与矩阵分解
  • 特征值/特征向量/奇异值分解
  • 范数与矩阵度量
  • 矩阵微分与雅可比矩阵

资源

  • 书籍:Gilbert Strang《线性代数》(第5版)
  • 课程:MIT 18.06(B站有翻译)
  • 练习:D2L线性代数部分 + NumPy实现

验收

  • [ ] 能推导PCA完整流程
  • [ ] 能解释SVD与特征值分解的关系
  • [ ] 能进行矩阵微分运算

概率统计(Week 3-4)

内容

  • 概率分布(离散/连续)
  • 条件概率与贝叶斯推断
  • 期望、方差、协方差
  • 最大似然估计(MLE)
  • 贝叶斯估计(MAP)

资源

  • 书籍:Pattern Recognition and Machine Learning (PRML) Chapter 1-2
  • 课程:Stanford CS229 概率部分
  • 练习:从分布出发推导激活函数

验收

  • [ ] 能从伯努利分布推导sigmoid
  • [ ] 能解释EM算法的E步和M步
  • [ ] 能推导GMM模型

优化理论(Week 5-6)

内容

  • 梯度下降与最速下降
  • 一阶/二阶优化方法
  • 约束优化与拉格朗日乘子
  • KKT条件
  • 凸优化基础

资源

  • 书籍:Convex Optimization (Boyd) 前4章
  • 课程:Stanford EE364A
  • 练习:从零实现各种优化器

验收

  • [ ] 能推导SGD/Momentum/Adam
  • [ ] 能解释学习率退火策略
  • [ ] 能理解二阶优化器的局限性

信息论(Week 7-8)

内容

  • 熵、联合熵、条件熵
  • 互信息
  • KL散度与交叉熵
  • 最大熵原理
  • 信息瓶颈理论

验收

  • [ ] 能计算各种熵
  • [ ] 能推导变分推断
  • [ ] 能解释InfoMAX原理

机器学习(Week 9-12)

监督学习(Week 9)

算法:线性回归、逻辑回归、SVM、决策树

要求

  • 公式推导(手推)
  • sklearn实现
  • 面试高频问题准备

无监督学习(Week 10)

算法:KMeans、DBSCAN、PCA、t-SNE、GMM

要求

  • 原理理解 + 代码实现
  • 降维方法的对比

集成学习(Week 11-12)

算法:Bagging、Boosting、Random Forest、XGBoost、LightGBM

要求

  • 能解释Gradient Boosting原理
  • 能调参优化XGBoost
  • 竞赛实战经验

Q2: 深度学习核心(Week 13-24)

Week 13-16: 神经网络基础

内容

  • MLP结构与激活函数
  • BP反向传播(手推+代码)
  • 初始化策略
  • BatchNorm/LayerNorm/InstanceNorm
  • Dropout与正则化

必读论文

  1. Batch Normalization ⭐⭐⭐
  2. Layer Normalization ⭐⭐⭐
  3. Dropout ⭐⭐
  4. Xavier/Glorot Initialization ⭐⭐

代码要求

  • 从零实现一个神经网络框架核心
  • 实现自动微分

Week 17-20: CNN + RNN

CNN部分

  • LeNet → AlexNet → VGG → GoogLeNet → ResNet → DenseNet
  • 轻量化网络:MobileNet、ShuffleNet、EfficientNet

RNN部分

  • Vanilla RNN
  • LSTM(门机制 + 梯度分析)
  • GRU
  • seq2seq + Attention

必读论文

  1. AlexNet ⭐⭐
  2. VGG ⭐⭐
  3. ResNet ⭐⭐⭐
  4. LSTM ⭐⭐⭐
  5. GRU ⭐⭐

代码要求

  • 从零实现ResNet Block
  • 实现LSTM前向传播

Week 21-24: Transformer

核心论文精读

  1. Attention Is All You Need ⭐⭐⭐⭐⭐(必须背下来)
  2. BERT ⭐⭐⭐⭐
  3. GPT-2/GPT-3 ⭐⭐⭐⭐
  4. RoPE ⭐⭐⭐⭐
  5. Flash Attention ⭐⭐⭐⭐

深入理解

  • Self-Attention的复杂度分析
  • Multi-Head vs Single Head
  • Pre-LN vs Post-LN
  • 位置编码的演化(Sinusoidal → RoPE → ALiBi → KiWi)

代码要求

  • 手写Multi-Head Attention
  • 实现旋转位置编码RoPE
  • 实现Flash Attention(了解原理)

Q3: LLM深入(Week 25-36)

Week 25-28: LLM基础

GPT系列演化

GPT-1 → GPT-2 → GPT-3 → InstructGPT → ChatGPT → GPT-4 → GPT-4o → o1

Llama系列

Llama1 → Llama2 → Llama3 → Llama4

国内模型

ChatGLM → Qwen → Baichuan → DeepSeek → Yi

要求

  • 熟悉每个模型的核心创新
  • 能对比各模型的优劣势
  • 了解训练数据集和规模

Week 29-32: 训练技术

Pretrain

  • Scaling Law
  • 数据处理(去重/清洗/分词)
  • 分布式训练(数据并行/张量并行/流水线并行)
  • MoE架构

Post-train

  • SFT(有监督微调)
  • RLHF(PPO)
  • DPO(直接偏好优化)
  • KTO

必读论文

  1. Scaling Law (Kaplan et al.) ⭐⭐⭐⭐
  2. PaLM MoE ⭐⭐⭐⭐
  3. InstructGPT ⭐⭐⭐⭐⭐
  4. DPO ⭐⭐⭐⭐
  5. LoRA ⭐⭐⭐⭐⭐

Week 33-36: 前沿方向(选2-3深入)

方向1: 多模态

  • CLIP/ViT
  • LLaVA/InternVL
  • 视频生成(Sora/Gen-3)
  • 语音交互

方向2: AI Agent

  • ReAct/CoT
  • LangGraph
  • MCP协议
  • AutoGPT/BabyAGI

方向3: 推理优化

  • Flash Attention
  • PagedAttention/KV Cache
  • INT量化(GPTQ/AWQ)
  • TensorRT-LLM/vLLM/SGLang

Q4: 科研能力 + 项目 + 面试(Week 37-48)

Week 37-40: 论文精读与复现

任务

  • 选择1-2篇核心论文进行深入复现
  • 尝试改进或创新
  • 撰写技术报告

推荐复现论文

  1. Attention (必须)
  2. ResNet (必须)
  3. ViT (推荐)
  4. LoRA (推荐)
  5. Flash Attention (进阶)

Week 41-44: 深度项目开发

项目要求

  • 完成2个以上的完整项目
  • 代码质量要达到开源标准
  • 准备项目答辩

高质量项目方向

  1. 从零训练一个小模型
  2. 多模态Agent系统
  3. 推理优化框架
  4. 分布式训练框架

Week 45-48: 面试冲刺

算法题

  • LeetCode Hot 100(至少刷2遍)
  • 重点:DP、图论、字符串

系统设计

  • 分布式训练系统设计
  • 推理服务系统设计
  • RAG系统设计

项目深挖

  • 项目背景/动机
  • 技术方案选择
  • 遇到的困难/解决方案
  • 未来改进方向

12个月深入版 vs 6个月就业版

方面6个月就业12个月深入
数学深度重点公式理论证明
论文数量10篇摘要30篇+全文
论文复现选读必须复现
竞赛可选建议参加
开源贡献可选建议有
目标薪资25-40K35-60K
目标公司中大厂大厂/明星
发展潜力中期长期

每日时间分配(参考)

3小时/天 = 1小时学习 + 1.5小时代码 + 0.5小时总结

工作日(碎片时间):
  通勤:听论文解读/看技术博客
  午休:刷算法题
  晚间:论文/项目

周末(整块时间):
  09:00-12:00  论文精读
  14:00-17:00  代码实践
  19:00-21:00  项目开发

书籍清单(12个月版)

数学:
- 《线性代数》Gilbert Strang
- 《概率论与数理统计》陈希孺
- 《Convex Optimization》Boyd

机器学习:
- 《机器学习》周志华(西瓜书)
- 《Pattern Recognition and Machine Learning》Bishop
- 《Hands-On Machine Learning》Geron

深度学习:
- 《深度学习》花书
- 《动手学深度学习》D2L
- 《神经网络与深度学习》邱锡鹏

LLM:
- 《Understanding Large Language Models》
- Attention论文集合
- RLHF/DPO论文集合