知识点卡片:具身智能
基本信息
| 属性 | 内容 |
|---|---|
| 知识点 | 具身智能 (Embodied AI) |
| 掌握程度 | ★★★☆☆ |
| 学习优先级 | P2 |
| 预估时间 | 4小时 |
| 面试频率 | ★★☆☆☆ |
核心概念
具身智能 = 感知 + 规划 + 控制 + 执行
AI不仅"思考",还能通过物理身体与环境交互。
应用场景:
├── 家庭服务机器人
├── 工业协作机器人
├── 自动驾驶
├── 无人机
└── 仿真训练环境代表工作
RT-1 / RT-2 (Google)
RT-1 (Robotics Transformer):
- 将图像和文本指令作为输入
- 输出机器人动作序列
- 使用Transformer架构
RT-2 (Vision-Language-Action):
- 端到端的视觉-语言-动作模型
- 使用VLM(视觉语言模型)直接控制机器人
- 可以利用互联网规模的图文数据进行预训练
- 历史性突破:从互联网知识迁移到物理操作PaLM-E (Google, 2023)
首个具身多模态大模型:
- 562B参数
- 输入:视觉+语言+机器人状态
- 输出:规划+动作
- 能完成"把抽屉里的薯片拿出来"这样复杂的指令关键技术
1. 模仿学习 (Imitation Learning)
python
# 从人类演示中学习策略
# 方法:行为克隆 (Behavioral Cloning)
# 收集专家轨迹 → 用监督学习拟合
# 挑战:分布漂移(小错误累积导致大偏离)
# 解决:DAgger (Dataset Aggregation)2. 仿真环境
| 环境 | 特点 | 适用 |
|---|---|---|
| Isaac Gym/Sim | GPU加速物理仿真 | 强化学习 |
| MuJoCo | 精确物理引擎 | 运动控制 |
| Habitat | 3D室内环境 | 视觉导航 |
| Gazebo | ROS集成 | 工业仿真 |
3. Sim-to-Real 迁移
从仿真到真实世界的挑战:
- 物理差异(摩擦力/质量/碰撞)
- 视觉差异(光照/纹理/背景)
- 传感器噪声
技术:
- Domain Randomization(随机化仿真参数)
- Domain Adaptation(域适应)
- 渐进式迁移就业方向
当前阶段:以学术研究为主
产业前景:长期看好(5-10年),短期岗位有限
适合:
- 对机器人/AI结合有热情
- 愿意长期投入
- 有CV/RL/控制背景
代表公司:
- 国外:Google Robotics, Tesla Bot, Boston Dynamics
- 国内:优必选/大疆机器人/银河通用/星动纪元