Skip to content

知识点卡片:具身智能

基本信息

属性内容
知识点具身智能 (Embodied AI)
掌握程度★★★☆☆
学习优先级P2
预估时间4小时
面试频率★★☆☆☆

核心概念

具身智能 = 感知 + 规划 + 控制 + 执行

AI不仅"思考",还能通过物理身体与环境交互。

应用场景:
├── 家庭服务机器人
├── 工业协作机器人
├── 自动驾驶
├── 无人机
└── 仿真训练环境

代表工作

RT-1 / RT-2 (Google)

RT-1 (Robotics Transformer):
- 将图像和文本指令作为输入
- 输出机器人动作序列
- 使用Transformer架构

RT-2 (Vision-Language-Action):
- 端到端的视觉-语言-动作模型
- 使用VLM(视觉语言模型)直接控制机器人
- 可以利用互联网规模的图文数据进行预训练
- 历史性突破:从互联网知识迁移到物理操作

PaLM-E (Google, 2023)

首个具身多模态大模型:
- 562B参数
- 输入:视觉+语言+机器人状态
- 输出:规划+动作
- 能完成"把抽屉里的薯片拿出来"这样复杂的指令

关键技术

1. 模仿学习 (Imitation Learning)

python
# 从人类演示中学习策略
# 方法:行为克隆 (Behavioral Cloning)
# 收集专家轨迹 → 用监督学习拟合

# 挑战:分布漂移(小错误累积导致大偏离)
# 解决:DAgger (Dataset Aggregation)

2. 仿真环境

环境特点适用
Isaac Gym/SimGPU加速物理仿真强化学习
MuJoCo精确物理引擎运动控制
Habitat3D室内环境视觉导航
GazeboROS集成工业仿真

3. Sim-to-Real 迁移

从仿真到真实世界的挑战:
- 物理差异(摩擦力/质量/碰撞)
- 视觉差异(光照/纹理/背景)
- 传感器噪声

技术:
- Domain Randomization(随机化仿真参数)
- Domain Adaptation(域适应)
- 渐进式迁移

就业方向

当前阶段:以学术研究为主
产业前景:长期看好(5-10年),短期岗位有限

适合:
- 对机器人/AI结合有热情
- 愿意长期投入
- 有CV/RL/控制背景

代表公司:
- 国外:Google Robotics, Tesla Bot, Boston Dynamics
- 国内:优必选/大疆机器人/银河通用/星动纪元

相关知识点