具身智能入门：从大模型到能感知、行动和学习的机器人

过去几年，大模型让 AI 学会了“读、写、看、说”。但如果我们希望 AI 不只是回答问题，而是能在真实世界里看见环境、理解任务、规划动作、操作物体、完成目标，就会进入一个更大的方向：具身智能。

具身智能的核心问题是：

如何让智能体拥有身体，通过感知世界、理解世界、行动于世界，并在与环境交互中持续学习？

这篇文章是一篇入门导读。我会从概念、系统架构、关键技术、代表模型、数据与训练、仿真平台、机器人落地、研究难点和学习路线几个角度，帮你建立对具身智能的整体理解。

1. 什么是具身智能

具身智能的英文是 Embodied Intelligence 或 Embodied AI。

它强调智能不是只存在于语言或符号中，而是和身体、环境、动作、反馈紧密绑定。

传统大语言模型主要处理：

1	文本输入 -> 文本输出

多模态大模型进一步处理：

1	图像 / 视频 / 文本 -> 文本输出

具身智能要处理的是：

视觉 / 语言 / 触觉 / 状态
        -> 理解与规划
        -> 动作控制
        -> 环境反馈
        -> 下一步决策

也就是说，它不是只回答“杯子在哪里”，而是要能真的伸手去拿杯子。

2. 一句话理解

如果用一句话解释具身智能：

具身智能是让 AI 通过机器人、机械臂、无人车或虚拟身体，在环境中感知、决策、行动和学习的智能系统。

如果用更口语化的方式说：

大模型像一个会思考的“大脑”，具身智能希望给这个大脑接上“眼睛、手、脚和身体”，让它能在真实世界完成任务。

3. 为什么叫“具身”

“具身”强调两点。

第一，智能体有身体。

这个身体可以是：

机械臂。
移动机器人。
人形机器人。
无人车。
无人机。
游戏或仿真环境里的 avatar。

第二，智能来自交互。

人类理解“杯子”不是只靠读百科，而是通过看、摸、拿、倒水、摔碎、清洗等经验建立概念。

具身智能也希望 AI 能通过环境交互获得更接近真实世界的理解。

4. 和普通 AI 的区别

方向	输入	输出	主要目标
NLP	文本	文本	理解和生成语言
CV	图像 / 视频	分类 / 检测 / 分割	理解视觉内容
多模态大模型	文本 + 图像 / 视频	文本	跨模态理解与问答
Agent	文本 / 工具状态	工具调用 / 文本	任务规划和工具使用
具身智能	视觉 + 语言 + 状态 + 传感器	动作 / 控制指令	在环境中完成任务

具身智能最核心的不同在于：输出不是文字，而是动作。

例如：

用户：把桌上的红色杯子放进水槽。
机器人需要：
1. 找到桌子。
2. 识别红色杯子。
3. 规划移动路线。
4. 控制机械臂抓取。
5. 避开障碍物。
6. 移动到水槽。
7. 放下杯子。
8. 判断任务是否完成。

这比回答“红色杯子是什么”复杂得多。

5. 具身智能系统的基本架构

一个典型具身智能系统可以拆成五层：

1	传感器层 -> 感知层 -> 认知规划层 -> 控制执行层 -> 反馈学习层

5.1 传感器层

传感器负责收集环境信息，包括：

RGB 摄像头。
深度相机。
LiDAR。
IMU。
触觉传感器。
力矩传感器。
机器人关节状态。
夹爪开合状态。

它们相当于机器人的眼睛、耳朵、触觉和身体感知。

5.2 感知层

感知层负责把原始传感器数据变成结构化理解。

常见任务：

目标检测。
语义分割。
3D 重建。
姿态估计。
物体跟踪。
场景理解。
可抓取点检测。

例如摄像头看到一张桌子，感知层要知道：桌子在哪里，杯子在哪里，杯子的姿态是什么，机械臂能不能抓。

5.3 认知规划层

这一层像“大脑”，负责理解任务并拆解步骤。

输入可能是：

1	用户语言指令 + 当前场景 + 机器人状态

输出可能是：

1	高层计划：找到杯子 -> 抓取杯子 -> 移动到水槽 -> 放下杯子

大语言模型和多模态大模型通常在这一层发挥作用。

5.4 控制执行层

控制层把高层计划变成机器人可以执行的低层动作。

例如：

移动底盘到坐标点
机械臂移动到抓取位姿
夹爪闭合
机械臂抬起

这部分涉及机器人运动学、动力学、轨迹规划和控制算法。

5.5 反馈学习层

机器人执行动作后，需要观察结果：

有没有抓住物体？
有没有碰撞？
物体是否移动到了目标位置？
人类是否满意？
任务是否失败？

这些反馈可以用于重新规划，也可以用于后续学习。

6. 一个完整例子：让机器人拿杯子

假设用户说：

1	帮我把桌子上的红色杯子拿过来。

具身智能系统可能这样工作：

1. 语音或文本识别用户指令。
2. 多模态模型理解目标是“红色杯子”。
3. 视觉模型检测桌面上的物体。
4. 系统定位红色杯子的 3D 位置。
5. 规划机械臂抓取姿态。
6. 规划底盘或机械臂运动轨迹。
7. 控制机器人执行抓取。
8. 通过视觉或力传感器判断是否抓取成功。
9. 如果失败，重新调整姿态再尝试。
10. 把杯子送到用户附近。

这说明具身智能不是单一模型，而是一个系统工程。

7. 具身智能的关键技术

7.1 视觉感知

机器人需要知道世界里有什么。

常用技术包括：

目标检测：找出物体位置。
语义分割：识别每个像素属于什么类别。
实例分割：区分不同物体实例。
深度估计：估计物体距离。
6D Pose：估计物体三维位姿。
SLAM：同时定位与建图。

没有可靠感知，后面的规划和控制都会出问题。

7.2 语言理解

语言是人类给机器人下达任务最自然的方式。

机器人需要理解：

1
2
3

把红色杯子放到水槽旁边
把第二层抽屉里的剪刀拿出来
把桌面收拾干净

这些指令涉及目标、属性、空间关系、动作和约束。

7.3 任务规划

任务规划负责把复杂任务拆成可执行步骤。

例如：

泡一杯咖啡

可以拆成：

找到杯子
找到咖啡粉
加咖啡粉
加热水
搅拌
递给用户

大语言模型很擅长做这种高层语义规划，但它不一定知道真实机器人是否能执行，所以需要和环境状态、动作空间结合。

7.4 运动规划

运动规划负责回答：机器人怎么从当前位置移动到目标位置。

机械臂运动规划要考虑：

关节角限制。
障碍物避让。
末端执行器姿态。
平滑轨迹。
碰撞检测。

移动机器人要考虑：

地图。
障碍物。
路径规划。
动态避障。

7.5 控制

控制比规划更底层。规划告诉你要走哪条路，控制负责让电机真的按轨迹走。

常见控制问题：

位置控制。
速度控制。
力控制。
阻抗控制。
抓取控制。

如果控制不稳定，规划再好也没用。

7.6 强化学习

强化学习适合学习交互策略。

基本形式是：

1	状态 state -> 动作 action -> 奖励 reward -> 新状态 next state

在机器人中，强化学习可以用于：

抓取。
行走。
操作物体。
导航。
灵巧手控制。

但强化学习在真实机器人上成本很高，因为试错可能损坏设备，所以经常先在仿真中训练。

7.7 模仿学习

模仿学习是从人类示范中学习。

例如收集很多遥操作数据：

1	图像 + 机器人状态 -> 人类操作动作

然后训练模型模仿人类动作。

这类方法在机器人操作任务中非常重要，因为相比手写 reward，收集示范有时更直接。

8. VLA：Vision-Language-Action 模型

近几年具身智能里非常重要的方向是 VLA，也就是：

1	Vision + Language + Action

它希望把视觉、语言和动作统一到一个模型里。

普通 VLM 的输入输出是：

1	图像 + 文本 -> 文本

VLA 的输入输出是：

1	图像 + 文本 + 机器人状态 -> 动作

例如：

1 2	输入：当前摄像头画面 + “把苹果放进篮子” + 机械臂状态输出：机械臂下一步动作

动作可以是：

机械臂末端位置变化。
关节角变化。
夹爪开合。
离散动作 token。
高层技能调用。

VLA 是把大模型能力接入机器人的重要路线。

9. RT-1、RT-2 和 OpenVLA

9.1 RT-1

RT-1 是 Google 提出的机器人 Transformer 模型，核心思想是用大量机器人操作数据训练一个能根据图像和语言输出动作的模型。

它证明了 Transformer 可以用于真实机器人控制任务。

9.2 RT-2

RT-2 更进一步，把 Web-scale 视觉语言知识迁移到机器人动作中。

直觉上：

让机器人不仅从机器人数据里学习，也从互联网图文知识里获得更强的语义理解。

例如模型在网页上学过“垃圾应该扔进垃圾桶”，就可能帮助机器人理解新的任务。

9.3 OpenVLA

OpenVLA 是开源 VLA 模型方向的代表之一，目标是让机器人策略模型更开放、更容易复现。

它把视觉语言模型和动作预测结合起来，让模型从多机器人、多任务数据中学习通用操作能力。

10. World Model：世界模型

世界模型是具身智能中的重要概念。

它试图让智能体在内部模拟环境变化：

1	当前状态 + 动作 -> 预测下一状态

如果机器人知道“推杯子会让杯子移动”，它就能在真正行动前先做内部推演。

世界模型的作用：

帮助规划。
减少真实试错成本。
预测动作后果。
做长期任务推理。

具身智能需要的不只是识别物体，还要理解物理因果。

11. 仿真环境

真实机器人训练成本高，所以仿真很重要。

常见仿真平台：

MuJoCo。
Isaac Sim。
Habitat。
AI2-THOR。
ManiSkill。
RoboSuite。
PyBullet。

仿真的作用：

低成本收集数据。
快速测试算法。
支持大规模并行训练。
避免损坏真实机器人。
可以自动生成标注。

但仿真也有问题：sim-to-real gap。

12. Sim-to-Real Gap

仿真和现实永远不完全一致。

差异包括：

摩擦系数不同。
物体质量不同。
光照不同。
相机噪声不同。
传感器延迟不同。
机械臂控制误差不同。

在仿真中训练好的策略，到了真实世界可能失败。

常见缓解方法：

Domain Randomization：随机化光照、纹理、质量、摩擦。
System Identification：让仿真参数接近真实机器人。
Real-world Fine-tuning：在真实数据上微调。
Robust Policy：训练对扰动更鲁棒的策略。

13. 数据为什么是瓶颈

大语言模型可以从互联网文本中学习，但机器人数据没那么容易获得。

机器人数据贵在：

需要真实机器人执行。
采集速度慢。
设备成本高。
标注复杂。
不同机器人动作空间不同。
数据格式不统一。

一个机器人一天能采多少有效操作轨迹，远远比不上互联网每天产生的文本和图片。

所以具身智能非常依赖：

仿真数据。
遥操作数据。
多机器人数据集。
人类视频数据。
自动标注和数据清洗。

14. 机器人数据集

常见数据集方向包括：

机器人抓取数据。
桌面操作数据。
导航数据。
人类活动视频。
多机器人多任务轨迹。
语言指令到动作的数据。

数据格式通常包含：

observation: 图像、深度、状态
instruction: 语言指令
action: 机器人动作
reward / success: 成功标记
metadata: 机器人类型、相机参数、任务信息

一个好的具身智能数据集，不只是图像多，还要动作和任务质量高。

15. 训练范式

具身智能常见训练范式有四类。

15.1 行为克隆

行为克隆是最直接的模仿学习：

1	输入观察和指令，预测人类示范动作

损失函数通常是动作预测误差。

优点：简单稳定。

缺点：遇到示范数据外的状态容易出错，错误会累积。

15.2 强化学习

强化学习通过 reward 学策略。

优点：可以超过人类示范，适合优化长期目标。

缺点：样本效率低，reward 设计难，真实机器人试错成本高。

15.3 离线强化学习

离线强化学习只使用已有数据，不在线探索。

优点：更安全。

缺点：数据分布外动作难处理。

15.4 大模型预训练 + 机器人微调

这是现在很热门的路线。

1 2	先用互联网图文/视频训练通用视觉语言能力再用机器人轨迹数据对齐到动作空间

RT-2、OpenVLA 等都和这条路线有关。

16. 动作空间怎么设计

动作空间是具身智能里非常关键但容易被忽略的问题。

常见动作表示：

16.1 低层连续动作

例如：

1	delta x, delta y, delta z, delta roll, delta pitch, delta yaw, gripper

优点：直接控制机械臂。

缺点：对模型精度要求高，训练难。

16.2 离散动作 token

把动作离散化成 token：

1	MOVE_LEFT, MOVE_RIGHT, OPEN_GRIPPER, CLOSE_GRIPPER

优点：更接近语言模型建模方式。

缺点：精细控制可能不够。

16.3 高层技能调用

模型不直接输出电机控制，而是输出技能：

pick(object)
place(location)
navigate(room)
open_drawer()

优点：更稳定、更可解释。

缺点：需要提前实现技能库。

17. 大模型在具身智能中做什么

大模型在具身智能中通常不直接替代所有模块，而是承担高层智能能力。

可以做：

语言理解。
任务拆解。
常识推理。
工具调用。
失败恢复策略。
人机交互。
多模态场景理解。

不擅长或不应直接做：

高频电机控制。
强实时避障。
精密力控。
安全关键决策。

所以更合理的架构是：

1
2
3

大模型做高层规划
传统机器人算法和策略模型做低层执行
安全模块做约束和兜底

18. LLM Agent 和具身智能的关系

LLM Agent 主要在数字世界里行动：调用工具、搜索网页、写代码、操作软件。

具身 Agent 则在物理世界里行动：移动、抓取、操作、导航。

两者很像，都有：

1	感知 -> 记忆 -> 规划 -> 工具/动作 -> 反馈

不同在于：

数字世界可回滚，物理世界很多动作不可回滚。
数字工具更确定，物理动作更噪声。
物理世界有安全风险。
机器人需要实时控制。

这也是为什么具身智能比普通 Agent 更难。

19. 具身智能的典型任务

19.1 视觉导航

让智能体根据语言或目标图像导航到指定位置。

例如：

去厨房找到冰箱。

19.2 物体抓取

识别物体并用机械臂抓取。

例如：

抓起桌上的苹果。

19.3 桌面操作

完成整理、搬运、插拔、打开、关闭等任务。

例如：

把积木按颜色分类。

19.4 家务机器人

扫地、收拾桌面、拿东西、开门、倒水。

19.5 人形机器人

更复杂，包括走路、保持平衡、双臂操作、语音交互、全身协调。

20. 为什么人形机器人很火

人形机器人火，是因为人类环境本来就是为人形身体设计的。

例如：

门把手高度。
楼梯尺寸。
桌椅高度。
工具形状。
开关位置。

如果机器人长得像人，就更容易使用人类环境中的工具和基础设施。

但人形机器人也最难：

硬件成本高。
平衡控制难。
双足行走难。
手部灵巧操作难。
安全要求高。
数据采集贵。

所以它是具身智能最吸引人、也最困难的方向之一。

21. 具身智能的难点

21.1 感知不确定性

真实世界光照、遮挡、反光、物体变形都会影响感知。

21.2 长任务规划

简单抓取可以一步完成，但做饭、整理房间这类任务需要长程规划和错误恢复。

21.3 低层控制难

真实机器人有摩擦、延迟、力学约束和硬件误差。

21.4 数据稀缺

高质量机器人轨迹数据非常贵。

21.5 泛化困难

在一种桌子、一种杯子上学会的策略，不一定能泛化到新环境。

21.6 安全问题

机器人会和真实人类、真实物体交互，不能随便试错。

22. 具身智能和自动驾驶

自动驾驶可以看作具身智能的一个特殊场景。

它也有：

1	感知 -> 预测 -> 规划 -> 控制

输入包括摄像头、雷达、地图、车辆状态；输出是方向盘、油门、刹车。

不同点在于，自动驾驶场景更垂直，而通用具身智能希望覆盖更多任务和身体形态。

23. 一个具身智能项目怎么做

如果你想入门，可以从仿真环境做一个小项目。

23.1 项目方向一：语言导航 Agent

目标：给定语言指令，让 agent 在仿真房间里找到目标物体。

技术栈：

Habitat / AI2-THOR。
CLIP / VLM。
路径规划。
LLM 任务拆解。

23.2 项目方向二：机械臂抓取

目标：在仿真环境中抓取指定物体。

技术栈：

MuJoCo / Isaac Sim / RoboSuite。
RGB-D 感知。
grasp pose 预测。
imitation learning。

23.3 项目方向三：VLA 小模型复现

目标：训练一个简单模型，根据图像和语言预测离散动作。

技术栈：

PyTorch。
Transformer。
机器人轨迹数据。
行为克隆。

24. 学习路线

如果从零开始，可以按这个顺序学。

24.1 基础阶段

Python / PyTorch。
机器学习基础。
深度学习基础。
Transformer。
计算机视觉基础。

24.2 多模态阶段

CLIP。
BLIP / LLaVA。
Vision Transformer。
VLM 训练和推理。

24.3 机器人阶段

坐标系和位姿。
运动学。
轨迹规划。
ROS 基础。
MuJoCo / Isaac Sim。

24.4 强化学习阶段

MDP。
Policy Gradient。
PPO / SAC。
Offline RL。
Imitation Learning。

24.5 具身智能阶段

VLA。
RT-1 / RT-2。
OpenVLA。
RoboCat。
SayCan。
Voyager / MineDojo。
World Model。

25. 推荐阅读方向

可以关注这些关键词：

Embodied AI。
Vision-Language-Action。
Robot Learning。
Imitation Learning。
Sim-to-Real。
World Model。
Foundation Models for Robotics。
Generalist Robot Policy。
Manipulation。
Navigation。

如果想读论文，可以从这些方向开始：

SayCan：语言模型做高层规划，机器人技能做执行。
RT-1：机器人 Transformer。
RT-2：把视觉语言知识迁移到机器人动作。
PaLM-E：多模态具身语言模型。
OpenVLA：开源视觉语言动作模型。
RoboCat：多任务机器人学习。

26. 面试怎么讲具身智能

如果面试官问“你怎么理解具身智能”，可以这样回答：

具身智能强调智能体不是只在文本或图像里做推理，而是拥有身体并在环境中行动。一个具身智能系统通常包括感知、语言理解、任务规划、运动控制和反馈学习几个模块。和普通大模型相比，它最大的区别是输出动作而不是文本，并且动作会改变环境，系统需要根据环境反馈继续决策。现在比较重要的方向是 VLA，也就是把视觉、语言和动作统一建模，让机器人能根据图像和语言指令生成可执行动作。难点主要在数据稀缺、sim-to-real、长程规划、低层控制和安全约束。

27. 常见问答

Q1：具身智能是不是就是机器人？

不完全是。机器人是具身智能最重要的载体，但具身智能也可以发生在仿真环境、游戏环境、自动驾驶系统和虚拟 agent 中。核心是“有身体、能感知、能行动、能从环境反馈中学习”。

Q2：大模型能直接控制机器人吗？

通常不建议直接让大模型输出电机控制。更合理的是让大模型做高层规划和语义理解，低层动作由控制器、技能库或专门的策略模型执行。

Q3：VLA 和 VLM 有什么区别？

VLM 是 Vision-Language Model，通常输入图像和文本，输出文本。VLA 是 Vision-Language-Action，输入图像、语言和机器人状态，输出动作。

Q4：为什么具身智能需要仿真？

因为真实机器人采集数据慢、贵、有安全风险。仿真可以大规模并行训练和测试，但需要解决 sim-to-real gap。

Q5：具身智能最大的瓶颈是什么？

目前主要瓶颈是高质量机器人数据、真实环境泛化、长程任务规划、低层控制稳定性和安全约束。

Q6：强化学习和模仿学习哪个更重要？

两者都重要。模仿学习更稳定，适合从人类示范中学习；强化学习可以进一步优化策略，但样本效率和安全性是问题。实际系统往往结合使用。

Q7：为什么 OpenVLA 这类模型重要？

因为它们尝试把通用视觉语言能力和机器人动作连接起来，让机器人策略模型不再只依赖小规模专用数据，而能继承基础模型的语义理解能力。

Q8：具身智能和 Agent 有什么关系？

具身智能可以看作物理世界里的 Agent。它同样需要感知、记忆、规划和行动，但行动对象从 API 和软件工具变成了真实环境和机器人身体。

28. 总结

具身智能是 AI 从“会说”走向“会做”的关键方向。它把大模型、多模态感知、机器人控制、强化学习、模仿学习、世界模型和安全系统结合起来，目标是让智能体能在真实或仿真环境中完成任务。

这条路很难，因为真实世界充满噪声、约束和不确定性；但它也很重要，因为真正通用的智能最终不能只停留在屏幕里，而要能理解并改变现实世界。

如果你已经熟悉大模型和多模态模型，下一步学习具身智能，会帮助你从“语言智能”走向“行动智能”。