世界模型奠基者皮特·弗洛伦斯创业，GEN-1具身智能模型成功率达99%！

转载于 2026-06-20 17:16:15 发布 · 193 阅读

世界模型热词下的“异类”

在当下的创投市场里，“世界模型”无疑是热词中的热词，新的“世界模型”公司不断完成融资，估值增长迅猛，股东列表豪华。并且在融资新闻通稿里，人们反复强调：一个合格的超级智能体应像人类那样主动理解物理世界。然而，皮特·弗洛伦斯（Pete Florence）创业后却在公开信开头写道： “不要将我的公司，贴上世界模型的标签。”这令人震惊，毕竟皮特·弗洛伦斯可不只是“创业者”这么简单。创业前，他在谷歌DeepMind团队一路从普通研究员升至高级研究科学家，是2025年DeepMind发布的机器人控制模型Gemini Robotics最核心的开发者之一，2023年还与同事一起向世界介绍了全新的机器人模型架构 “Vision-Language-Action Models” 。（皮特·弗洛伦斯，来源：社交媒体）如果说“世界模型”或“VLA”是最前沿、最具共识的方向，那皮特·弗洛伦斯就是当之无愧的先行者。这样的他带头扔掉“世界模型”标签，冲击感十足。而现在，冲击感加倍了。近日，他创办的具身智能公司Generalist AI完成了一轮4亿美元（约合人民币27亿元）的新融资，估值达20亿美元（约合人民币135.5亿元）。本轮投资方阵容强大，包括英伟达旗下的NVentures、知名天使投资人纳特·弗里德曼（Nat Friedman）和丹尼尔·格罗斯（Daniel Gross）共同管理的NFDG、贝索斯的家族办公司Bezos Expeditions，还有小米联合创始人林斌、Zoom创始人袁征，以及世界模型领域内最具代表性的科学家李飞飞。

“目标”比“标签”更重要

为什么皮特·弗洛伦斯如此抗拒贴上“世界模型”的标签？为什么李飞飞却用真金白银支持这样一位公开“离经叛道”的异端？故事要从2019年说起。当时皮特·弗洛伦斯在麻省理工大学攻读计算机科学博士，研究方向为机器人操控、计算机视觉和自然语言处理等，出身“根正苗红”。但麻省理工给他分配了导师拉斯·泰德雷克（Russ Tedrake）。拉斯·泰德雷克是学术大拿，2019年分别担任麻省理工大学电气工程与计算机科学教授、计算机科学与人工智能实验室机器人中心主任，每年DARPA机器人挑战赛还带领麻省理工校队参赛，校外还兼任丰田研究院机器人研究中心的副总裁。然而，拉斯·泰德雷克着迷的是“物理”。他回忆自己踏上计算机科学学术道路，源于研究“双腿直立机器人”时看到“丰富动力学特性”，从而对“复杂流体动力学控制”产生浓厚兴趣。所以他首先研究的课题是控制“失速后的飞行器或扑翼飞行器”、“高速穿越密集障碍物”，而非像其他研究者先研究让机器人抓苹果、叠被子。麻省理工官网介绍他的学术特点：“该教授的研究重点在于为有趣的（欠驱动、随机和/或难以建模的）动力系统寻找优雅的控制解决方案，并能够构建这些系统进行实验验证。他尤其关注力学（特别是非光滑力学）与机器学习/优化理论之间的联系，从而为复杂机械系统实现鲁棒控制设计。”皮特·弗洛伦斯耳濡目染，成为计算机科学中的“物理派”。他博士期间最有代表性的学术成果《视觉运动策略学习中的自监督对应》提出，通过模仿学习，机器人用50次演示就能完成挑战性操作任务，还能对不同类别的物体进行泛化，适应可变形物体的构型，该论文获2020年度IEEE（国际电气与电子工程师协会）机器人与自动化领域最佳论文奖。大量研究者习惯先有现有技术，再通过实验得出技术可能性，最后确定技术落地场景。而皮特·弗洛伦斯认为正确顺序是“先设置具体的目标”，再设计技术路径。加入谷歌DeepMind团队后，他沿此方向开展工作，2021年谷歌推出的初代机器人模型架构Transporter Network就是代表作。在模型发布论文中，他提到整理物品对机器人来说需“高层次和低层次的感知推理”，要考虑书的放置位置、堆放顺序，还要确保书边缘对齐。Transporter Network旨在“让简单的动作变得简单”，可让机器人基于视觉完成各种操作，训练速度快，对训练环境依赖性低。2023年与DeepMind团队共同发布VLA架构，也是基于此思路。论文中作者们表示希望VLA架构能“显著提升对新物体的泛化能力、能够解读机器人训练数据中未出现的指令（例如将物体放置在特定数字或图标上），以及能够根据用户指令进行基本的推理（例如拾取最小或最大的物体，或拾取距离其他物体最近的物体）”。所以，皮特·弗洛伦斯认为“目标”比“标签”更重要。他觉得目前世界模型的热情是“理念驱动型”，部分源于资本市场在大热方向上发现非共识的兴奋。要推动机器人进入工作生活、创造生产力，构建“世界模型”不是目标，真正目标是机器人能以极高成功率和速度完成从未见过的各类任务，且无需特定任务的数据。这也是他离开谷歌DeepMind独立创业的原因。2025年英伟达GTC大会上，他首次作为Generalist AI的联合创始人兼首席执行官亮相，他说：“我们决心制造出能够做任何事的机器人……试想一下，如果体力劳动的边际成本降至零，那会是怎样一番景象。”

99%的成功率

除技术理念“离经叛道”，皮特·弗洛伦斯的创业之路也非主流。理论上，他这样履历的创业者会受VC热捧，像杨立昆、伊利亚·苏茨克维、米拉·穆拉蒂公司刚成立（甚至没注册）就完成超10亿美元种子轮。但Generalist AI起步阶段只接受了英伟达、贝索斯家办、NFDG等少数机构投资。若不是英伟达风投部门NVentures在2025年GTC大会组织“被投企业圆桌”，大家都不知道他已离职创业。这可能是他的主动选择。他一毕业就进入谷歌DeepMind团队，从2019年干到2025年，Generalist AI是他第一段创业经历，需慎之又慎。2025年英伟达GTC大会上，他首次以创业者公开亮相，除说在造“机器人”外，未透露具体业务方向，称“我们目前仍处于隐秘状态”。直到2025年11月，Generalist AI发布初代具身智能模型GEN-0。官方介绍中，GEN-0融合视觉与语言模型优势并超越，能捕捉人类级反射能力和物理常识。它能随模型规模和训练数据增大持续提升能力，突破小型模型瓶颈；能像人类一样边思考边行动，在真实物理环境中快速自然反应；天然适配不同类型机器人，无需额外改造；依托海量真实操作数据，不受数据匮乏制约，还可灵活调整训练数据构成。大量科技媒体指出，GEN-0证明驱动ChatGPT等大型语言模型的数学“扩展规律”也适用于物理运动。不过GEN-0并不完美，未解决具身智能领域的数据集问题。2026年4月，Generalist AI迅速迭代到GEN-1。（“机械手”，来源：Generalist AI社媒）为解决数据集问题，Generalist AI开发可穿戴设备，捕捉人类执行手工任务时的微小动作和视觉信息。他们通过这对机械手收集超50万小时的“PB级物理交互数据”训练物理模型。充分训练后，GEN-1在折叠纸箱、打包手机和维护扫地机器人等重复性但精细的机械任务上，成功率高达99%，速度约为GEN-0的三倍，且约一小时就能达成目标。Generalist AI宣布，GEN-1的物理模型接近类似GPT-3的拐点，一些任务性能开始“达到在商业实用环境中部署所需的水平”，“我们可以预期每一代新模型都会带来一系列日益复杂的新任务，这些任务都可以被掌握”。皮特·弗洛伦斯在官方博客指出，GEN-1的开发过程是他个人技术理念的最好诠释：先设置机器人以极高成功率和速度完成从未见过的各类任务且无需特定任务数据的目标，再基于此设定解决路径，允许针对特定任务使用少量机器人数据（称之为X）并实现高水平执行，然后不断减小X同时提升性能。现在，前面的问题有了答案。Generalist AI所开发产品是否叫“世界模型”不重要，只要看好具身智能行业、机器人大规模进入实际生产，Generalist AI就是值得投资的选择。Generalist AI这轮融资在GEN-1发布后两个月内迅速敲定。老股东英伟达、贝索斯家办Bezos Expeditions、NDFG全部复投且加倍，新晋投资者有小米联合创始人林斌、Zoom创始人袁征、华人科学家李飞飞，还有Radical Ventures、8VC、Union Square Ventures、Hanabi Capital、Norwest等机构投资人。也就是说，2026年6月的皮特·弗洛伦斯无需再证明自己，他早年吹过的牛——如2025年创业时在播客中说“通用机器人不是样样都浅尝辄止，而是要在真实任务上专业到足够有用”——正逐步兑现。那么，具身智能的未来又将走向何方呢？