LBM与DiT协同进化：如何通过CLIP语义编码提升Atlas人形机器人的动态任务适应性

原创

于 2026-02-28 12:20:12 发布 · 385 阅读

标签

1. 从“跳舞”到“干活”：为什么Atlas需要更聪明的大脑？

最近看波士顿动力Atlas机器人的新视频，感觉有点不一样了。以前大家津津乐道的是它后空翻、跑酷、跳舞，动作是帅，但总让人觉得像在“炫技”。现在的新视频里，Atlas开始干“正经活”了，比如在仓库里搬箱子、分拣零件，甚至在模拟的杂乱场景里清理障碍物。这种转变背后，其实反映了一个核心问题：人形机器人要想真正走进我们的生活，光有灵活的身体是不够的，它必须有一个能理解世界、并快速做出决策的“大脑”。

这个“大脑”就是大型行为模型。你可以把它想象成机器人的“常识库”和“经验手册”。传统的机器人编程是“手把手”教的：工程师写死一套程序，告诉机器人“第一步伸手，第二步抓取，第三步放下”。这在固定流水线上没问题，但一旦环境变了——比如箱子放歪了、地上多了个障碍物、或者任务指令从“搬箱子”变成了“把红色的零件放进A区”——机器人就懵了。LBM的目标就是让机器人能像人一样，通过观察和语义理解，自己“琢磨”出该怎么做。

那么，Atlas是怎么做到的呢？它背后的技术核心，是一个巧妙的组合：LBM（大型行为模型）负责规划和生成行为，DiT（扩散Transformer）负责把这些规划变成精准、平滑的动作序列，而CLIP（这个我们后面会细说）则充当了机器人的“眼睛”和“耳朵”，帮它理解摄像头看到的画面和人类下达的指令到底是什么意思。这个三角组合，正是让Atlas从“舞者”进化成“工人”的关键。我研究过不少机器人项目，发现很多团队都在堆算力、调参数，但往往忽略了“语义理解”这个环节。机器人看到一个红色的方块，它只知道那是一堆像素，不知道那是“一个需要小心轻放的易碎品”。而CLIP注入的语义能力，恰恰补上了这块短板。

2. 拆解技术铁三角：LBM、DiT与CLIP如何各司其职？

要理解Atlas的进化，我们得先把这三个技术组件拆开看看，它们各自是干什么的，又是怎么拧成一股绳的。

2.1 LBM：机器人的“行为策略库”

LBM 的全称是大型行为模型。它本质上是一个经过海量机器人操作数据训练出来的神经网络。你可以把它类比为机器人的“肌肉记忆”和“条件反射库”。但和死记硬背不同，LBM学习的是各种任务背后的通用模式和逻辑。比如，无论是“抓取杯子”还是“拧开瓶盖”，都需要先靠近物体、调整手型、然后施加适当的力。LBM就从成千上万类似的演示中，抽象出这些通用技能。

在实际操作中，LBM的输入非常丰富：包括机器人摄像头拍到的多视角图像、机器人自身关节的角度和位置（这叫本体感觉）、以及一条人类用自然语言下达的指令，比如“把那个蓝色的电池放进左边的盒子里”。它的输出，则是一个初步的、宏观的动作意图。但这里有个问题：LBM生成的动作规划可能是比较粗糙的，或者存在多种可能性（比如抓取一个物体，可以从上方抓，也可以从侧面抓）。如何把这些可能的规划，变成唯一一个最优的、且能平滑执行的具体动作序列呢？这就需要下一个组件了。

2.2 DiT：把“想法”变成“动作”的雕刻师

DiT，即扩散Transformer，是最近特别火的一类生成模型。它在图像生成领域大名鼎鼎，比如Stable Diffusion的核心就是它。那它怎么用在机器人上呢？妙就妙在这里。

我们可以把机器人执行一个任务时，从开始到结束的整个动作序列（比如连续16个时间步里，每个关节该怎么动）想象成一张“动作图片”。DiT的工作，就像一位雕刻师。它一开始拿到的是一个充满随机噪声的、杂乱无章的“动作毛坯”（这对应扩散过程的起点）。同时，它也知道LBM给出的任务条件（“要搬箱子”）和CLIP理解的当前环境状态

最低0.47元/天解锁文章