Skip to content

知识点卡片:GPT系列演化

基本信息

属性内容
知识点GPT系列演化史 (GPT-1 → GPT-4o → o1)
掌握程度★★★★★
学习优先级P0
预估时间5小时
面试频率★★★★★

演化路线

GPT-1(2018) → GPT-2(2019) → GPT-3(2020) → InstructGPT(2022)
→ ChatGPT(2022) → GPT-4(2023) → GPT-4o(2024) → o1/o3(2024)

各代核心创新

GPT-1 (2018) - 证明预训练有效

  • 117M参数,12层Decoder
  • 核心:Generative Pre-Training + Task-specific Fine-tuning
  • 证明在大规模无标注文本上预训练 + 下游微调的有效性

GPT-2 (2019) - Zero-shot能力

  • 1.5B参数,48层
  • 核心:更大的模型 + 更多数据 → Zero-shot能力
  • 争议:因"风险太大"一度不开源

GPT-3 (2020) - In-context Learning

  • 175B参数
  • 核心:Few-shot/Zero-shot In-context Learning
  • 不需要微调,通过prompt中示例就能完成新任务
  • 涌现能力的里程碑

InstructGPT / ChatGPT (2022)

  • 核心:RLHF对齐技术
  • 三步:SFT → 奖励模型 → PPO
  • 从"预测下一个token"到"遵循人类指令"

GPT-4 (2023) - 多模态+更强推理

  • ~1.8T参数(MoE架构推测)
  • 支持图像输入(多模态)
  • 在各基准测试上大幅超越GPT-3.5

GPT-4o (2024) - 全模态

  • 原生多模态:文本+图像+语音
  • 更低延迟、更低成本
  • 端到端训练(非pipeline拼接)

o1 / o3 (2024) - 推理增强

  • Chain-of-Thought推理链
  • 用更多推理时间换取更好结果
  • 在数学、编程等需多步推理的任务上突破

面试高频问题

Q1: GPT系列的核心架构是什么?

: GPT使用Transformer Decoder-Only架构:

  • 堆叠多层Transformer Decoder Block
  • 每层包含:Masked Self-Attention + FFN
  • 使用因果mask(只看前面的token)
  • 自回归生成:逐个token预测下一个

Q2: GPT-1到GPT-3的核心变化是什么?

方面GPT-1GPT-2GPT-3
参数117M1.5B175B
层数124896
创新预训练范式Zero-shotIn-context Learning
微调需要需要可选
关键发现-规模带来zero-shot涌现能力

Q3: InstructGPT相比GPT-3做了什么?

: GPT-3虽然是优秀的基础模型,但不懂"遵循指令"。InstructGPT通过RLHF:

  1. 收集人类编写的(prompt, answer)对做SFT
  2. 收集人类排序偏好训练奖励模型
  3. 用PPO优化模型使其生成的内容让奖励模型给高分 这使得模型真正变得"有帮助且无害"。

相关知识点