🧭 为什么人类容易的事对机器人却那么难?

这是一个著名的现象,叫做Moravec悖论

简单来说:人类花了几百万年进化出的本能技能,比如走路、拿东西、看东西,反而是机器人最难学会的;而对我们来说很难的事情,比如复杂计算、处理大量数据,却是机器人擅长的。

这个矛盾产生的核心原因是:

  • 人类的大脑和身体早已在现实环境中高度优化,擅长应对模糊、多变的现实世界;
  • 而机器人虽然计算能力强,但应对真实世界的不确定性和复杂物理互动能力很弱。

我们先从一个现实例子出发:

假如你要请一个刚学会走路的小孩帮你完成以下任务:

  • 去货架上拿一个金属零件
  • 然后插入另一个配套位置里
  • 如果插错了或者掉了,还能重新调整再来一次

这听起来像人类轻松完成的小事,但对机器人来说却是一个系统工程。因为它不仅要能“看到”,还得:

  1. 认出物体是什么
  2. 判断物体在哪里
  3. 估计怎么抓、从哪个角度插入
  4. 感知是否插对了
  5. 如果出错,能自己修正

这些都不是“看一眼就知道”的问题,而是一个融合了图像识别、三维几何理解、实时控制、错误恢复、与任务规划的复杂感知-决策系统。

这些都依赖一个先进的视觉感知系统——不仅要看到图像,还要理解图像背后的结构与语义信息(几何+用途)。

视频内容摘要

机器人是如何“感知”和“理解”世界的?

Atlas的感知系统依赖多个摄像头和传感器,结合AI模型与传统算法,实时分析和理解当前环境。它能做以下几件事:

  1. 重建三维环境:知道周围物体的位置和形状;
  2. 识别关键物体:比如要搬的盒子、地上的障碍物;
  3. 预测并适应变化:例如有人或其他物体移动了,系统要能实时更新对当前“世界状态”的理解。

为什么感知系统一定要实时?
因为机器人每次执行任务时,环境都可能出现微小变化(物品位置偏移、手部误差等)。一旦感知不到这些变化,机器人就会“误判”,造成任务失败。


为什么不能简单“预录动作”让机器人照着做?

许多人误以为机器人可以像动画或电影一样,提前编好动作,然后照着“播放”就能完成任务。

但现实中并非如此:

  • 微小误差(如一个物体偏移1厘米)可能就让整套动作失败;
  • 动作是基于“当前世界状态”设计的,一旦实际情况变化,就必须“重新计算”;
  • 所以机器人必须边感知、边决策、边执行,每一次动作都需要实时反馈与调整。

为什么这类工作适合人形机器人?

在演示的任务中,比如将物品搬运、分拣、放入狭窄的货架,这些都有几个特点:

  • 环境结构复杂、不规则;
  • 动作需要高/低伸手、灵活转身、较强的范围移动能力;
  • 任务本身单调、重复、且对精度要求高;
  • 人类长期做这种体力活容易疲劳出错。

这正是人形机器人(具备类似人类灵活身体结构)大展拳脚的场景。Atlas能模拟人类灵活的姿态,在动态环境中操作,兼具“动作范围”和“身体平衡”能力。


如何确保机器人操作时的高精度?

机器人要做到稳定执行高精度任务,依赖几个核心能力:

  1. 实时感知反馈:每次抓取或移动都可能略有偏差,系统要能立刻察觉;
  2. 不断修正“认知地图”:例如物品被推动了、方向变了,系统需要即时重定位;
  3. 遮挡问题解决:当机器人手臂移动时可能会挡住视线,它需要主动调整角度来“看到”物品;
  4. 主动调整操作策略:例如改变姿态、转动物品角度让光线更好地照到关键区域,提高识别率。

当出错时(如物品掉落)机器人该如何应对?

掉落代表前一步已发生错误(位置判断不准、抓取不牢等),但系统仍需具备应对策略:

  • 重新定位物体:判断物体现在在地上的确切位置;
  • 指令化操作动作:并非预编死动作,而是以“目标指令”方式告知——把手伸到物体旁,手指贴地,收拢成握姿;
  • 依靠身体控制系统完成复杂动作:如全身蹲下、重心平衡;
  • 避免后续连锁问题:比如避免绊倒机器人本体,或造成其他操作失败。

机器人真正的技术瓶颈是什么?

当前的关键挑战是**“通用性”和“适应性”**:

不是让机器人完成一个任务,而是让它面对多种不同任务都能自主适应和完成。

为此,研究正朝着以下方向发展:

  1. 多模态大模型训练:机器人不再靠一个个任务单独训练,而是通过大规模数据集(图像、视频、语言)一次性学会大量通用知识;
  2. 从“感知智能”走向“物理智能”
    • 不只是“看懂”,还要“做出正确动作”;
    • 类似人类能通过语言或视频理解指令并执行操作,未来机器人也将具备这种能力;
  3. 控制系统与语言模型结合:探索如何直接用语言或视频指导机器人完成复杂物理任务。

Atlas机器人感知系统技术细节

Boston Dynamics 公司发布了一篇文章详细介绍了他们的 Atlas 机器人的视觉能力构成。

Atlas视觉系统的核心能力


📸 Atlas如何识别环境中的物体?(2D视觉识别)

问题本质:

机器人如何判断“前面是个储物架,而不是墙”?而且不仅要知道是“架子”,还得知道“具体哪个格子是放零件的地方”。

技术实现:

  • Atlas使用2D图像识别模型来分析摄像头拍到的画面,识别出“固定装置(fixtures)”——也就是各种货架、物料架等。
  • 系统提取出两类关键点:
    1. 外部关键点(绿色):比如货架的四个角,类似人在看一个方形时感知“边界”。
    2. 内部关键点(红色):表示架子内部的小格子分区,这些是“放东西”的地方。

🧠 类比:就像你在便利店看到货架,不仅知道那是个架子,还知道可乐在中间第2层。

为什么这很难?

  • 工厂里很多金属架反光严重或颜色单调,很难通过图像识别清楚看出边界。
  • 架子可能遮住部分结构,甚至挪了位置,机器人不能只靠死记硬背。

🧭 Atlas如何判断物体的三维位置?(3D定位+对齐)

问题本质:

识别出了“是个货架”,接下来还需要判断——这个架子到底在机器人面前多远?是歪了还是正对着?里面哪个格子正对着我?

技术解决方案:

  • 通过匹配关键点位置与储物架的已知3D模型,进行位置对齐。
  • 使用 Atlas 自己身体运动的数据(即所谓的“运动估计”)辅助判断:比如它刚刚向前走了30cm,那么架子的位置也相应要更新。

🧠 类比:你闭上眼睛走了几步,虽然看不见前面,但你知道自己走了多远,能估算大概在哪儿。

特别挑战:

  • 遮挡:当机器人离架子太近时,相机可能只能看到一部分,这时得靠**“内部分区点”**来判断每个格子的位置。
  • 视觉相同的货架(同类 fixture class):很多架子长得一模一样,Atlas需要结合时间线索(过去在哪看到过)和空间位置(这个架子通常在另一个的旁边)来区分。

✋ Atlas如何持续追踪抓住的物体?(SuperTracker 追踪系统)

问题本质:

假设Atlas已经抓住了一个零件,它怎么知道这个零件现在在什么位置、有没有掉、是否还在手里?

技术机制:

  1. 视觉跟踪:当零件在视野里时,系统用一张照片和CAD模型对比,估算出当前姿态(位置+角度)。
  2. 物理感知:当物体不在相机范围内时,依赖机械臂的位置来推测物体的位置(假设手还握着它)。
  3. 融合判断
    • 相机告诉它“我看到物体在这里”
    • 手部运动告诉它“我应该拿着物体移动到这里”
    • 系统综合两者,选择可信的结果

🧠 类比:你闭着眼拿着水杯移动时,也能知道杯子在哪里,因为你知道自己手的动作。

增强机制:

  • 使用多个猜测姿态,找出最一致的(类似让多个专家投票)。
  • 如果某个姿态会让“手离物体太远”,就被排除。
  • 所有信息被装进一个“平滑滤波器”,融合成最终轨迹。

🎯 机器人怎么知道自己的动作位置是准确的?(手眼校准)

为什么重要:

你可能识别到了物体,也推测出了它的位置,但如果你的“眼睛”和“手”之间的协调有误差,操作还是会失败。

技术做法:

  • 通过一套精密的相机与关节的校准机制,让系统知道:
    • 相机拍到的位置,在空间中对应哪里
    • 自己手的位置和角度到底是多少
  • 校准还考虑了:
    • 制造公差(零件尺寸误差)
    • 长期漂移(如温度、撞击导致结构微调)

🧠 类比:你戴着VR眼镜玩游戏时,如果摄像头和手柄没对好位,游戏里动作会错位。


🚀 未来方向:从“看清”到“理解并行动”

Boston Dynamics 不满足于仅让机器人“看清楚”,而是想让它:

  • 能理解空间与动作的物理规律
  • 在复杂环境中自主适应并行动
  • 最终形成类似GPT那样的通用模型,可以跨任务泛化——这就是他们所谓的“Athletic Intelligence”(运动智能)