1. 从“跳舞”到“干活”:为什么Atlas需要更聪明的大脑?
最近看波士顿动力Atlas机器人的新视频,感觉有点不一样了。以前大家津津乐道的是它后空翻、跑酷、跳舞,动作是帅,但总让人觉得像在“炫技”。现在的新视频里,Atlas开始干“正经活”了,比如在仓库里搬箱子、分拣零件,甚至在模拟的杂乱场景里清理障碍物。这种转变背后,其实反映了一个核心问题:人形机器人要想真正走进我们的生活,光有灵活的身体是不够的,它必须有一个能理解世界、并快速做出决策的“大脑”。
这个“大脑”就是大型行为模型。你可以把它想象成机器人的“常识库”和“经验手册”。传统的机器人编程是“手把手”教的:工程师写死一套程序,告诉机器人“第一步伸手,第二步抓取,第三步放下”。这在固定流水线上没问题,但一旦环境变了——比如箱子放歪了、地上多了个障碍物、或者任务指令从“搬箱子”变成了“把红色的零件放进A区”——机器人就懵了。LBM的目标就是让机器人能像人一样,通过观察和语义理解,自己“琢磨”出该怎么做。
那么,Atlas是怎么做到的呢?它背后的技术核心,是一个巧妙的组合:LBM(大型行为模型)负责规划和生成行为,DiT(扩散Transformer)负责把这些规划变成精准、平滑的动作序列,而CLIP(这个我们后面会细说)则充当了机器人的“眼睛”和“耳朵”,帮它理解摄像头看到的画面和人类下达的指令到底是什么意思。这个三角组合,正是让Atlas从“舞者”进化成“工人”的关键。我研究过不少机器人项目,发现很多团队都在堆算力、调参数,但往往忽略了“语义理解”这个环节。机器人看到一个红色的方块,它只知道那是一堆像素,不知道那是“一个需要小心轻放的易碎品”。而CLIP注入的语义能力,恰恰补上了这块短板。
2. 拆解技术铁三角:LBM、DiT与CLIP如何各司其职?
要理解Atlas的进化,我们得先把这三个技术组件拆开看看,它们各自是干什么的,又是怎么拧成一股绳的。
2.1 LBM:机器人的“行为策略库”
LBM 的全称是大型行为模型。它本质上是一个经过海量机器人操作数据训练出来的神经网络。你可以把它类比为机器人的“肌肉记忆”和“条件反射库”。但和死记硬背不同,LBM学习的是各种任务背后的通用模式和逻辑。比如,无论是“抓取杯子”还是“拧开瓶盖”,都需要先靠近物体、调整手型、然后施加适当的力。LBM就从成千上万类似的演示中,抽象出这些通用技能。
在实际操作中,LBM的输入非常丰富:包括机器人摄像头拍到的多视角图像、机器人自身关节的角度和位置(这叫本体感觉)、以及一条人类用自然语言下达的指令,比如“把那个蓝色的电池放进左边的盒子里”。它的输出,则是一个初步的、宏观的动作意图。但这里有个问题:LBM生成的动作规划可能是比较粗糙的,或者存在多种可能性(比如抓取一个物体,可以从上方抓,也可以从侧面抓)。如何把这些可能的规划,变成唯一一个最优的、且能平滑执行的具体动作序列呢?这就需要下一个组件了。
2.2 DiT:把“想法”变成“动作”的雕刻师
DiT,即扩散Transformer,是最近特别火的一类生成模型。它在图像生成领域大名鼎鼎,比如Stable Diffusion的核心就是它。那它怎么用在机器人上呢?妙就妙在这里。
我们可以把机器人执行一个任务时,从开始到结束的整个动作序列(比如连续16个时间步里,每个关节该怎么动)想象成一张“动作图片”。DiT的工作,就像一位雕刻师。它一开始拿到的是一个充满随机噪声的、杂乱无章的“动作毛坯”(这对应扩散过程的起点)。同时,它也知道LBM给出的任务条件(“要搬箱子”)和CLIP理解的当前环境状态



被折叠的 条评论
为什么被折叠?



