知识点卡片：具身智能

基本信息

属性	内容
知识点	具身智能 (Embodied AI)
掌握程度	★★★☆☆
学习优先级	P2
预估时间	4小时
面试频率	★★☆☆☆

核心概念

具身智能 = 感知 + 规划 + 控制 + 执行

AI不仅"思考"，还能通过物理身体与环境交互。

应用场景：
├── 家庭服务机器人
├── 工业协作机器人
├── 自动驾驶
├── 无人机
└── 仿真训练环境

代表工作

RT-1 / RT-2 (Google)

RT-1 (Robotics Transformer)：
- 将图像和文本指令作为输入
- 输出机器人动作序列
- 使用Transformer架构

RT-2 (Vision-Language-Action)：
- 端到端的视觉-语言-动作模型
- 使用VLM（视觉语言模型）直接控制机器人
- 可以利用互联网规模的图文数据进行预训练
- 历史性突破：从互联网知识迁移到物理操作

PaLM-E (Google, 2023)

首个具身多模态大模型：
- 562B参数
- 输入：视觉+语言+机器人状态
- 输出：规划+动作
- 能完成"把抽屉里的薯片拿出来"这样复杂的指令

关键技术

1. 模仿学习 (Imitation Learning)

python

# 从人类演示中学习策略
# 方法：行为克隆 (Behavioral Cloning)
# 收集专家轨迹 → 用监督学习拟合

# 挑战：分布漂移（小错误累积导致大偏离）
# 解决：DAgger (Dataset Aggregation)

2. 仿真环境

环境	特点	适用
Isaac Gym/Sim	GPU加速物理仿真	强化学习
MuJoCo	精确物理引擎	运动控制
Habitat	3D室内环境	视觉导航
Gazebo	ROS集成	工业仿真

3. Sim-to-Real 迁移

从仿真到真实世界的挑战：
- 物理差异（摩擦力/质量/碰撞）
- 视觉差异（光照/纹理/背景）
- 传感器噪声

技术：
- Domain Randomization（随机化仿真参数）
- Domain Adaptation（域适应）
- 渐进式迁移

就业方向

当前阶段：以学术研究为主
产业前景：长期看好（5-10年），短期岗位有限

适合：
- 对机器人/AI结合有热情
- 愿意长期投入
- 有CV/RL/控制背景

代表公司：
- 国外：Google Robotics, Tesla Bot, Boston Dynamics
- 国内：优必选/大疆机器人/银河通用/星动纪元

知识点卡片：具身智能 ​

基本信息 ​

核心概念 ​

代表工作 ​

RT-1 / RT-2 (Google) ​

PaLM-E (Google, 2023) ​

关键技术 ​

1. 模仿学习 (Imitation Learning) ​

2. 仿真环境 ​

3. Sim-to-Real 迁移 ​

就业方向 ​

相关知识点 ​

知识点卡片：具身智能

基本信息

核心概念

代表工作

RT-1 / RT-2 (Google)

PaLM-E (Google, 2023)

关键技术

1. 模仿学习 (Imitation Learning)

2. 仿真环境

3. Sim-to-Real 迁移

就业方向

相关知识点