特斯拉 DOJO超级计算系统究竟是个啥?(1)

特斯拉的Dojo超级计算机项目负责人Ganesh离职,由苹果前高管Peter Bannon接任。Dojo是一个专为加速自动驾驶计划设计的深度学习计算集群,由多个单元构成,包括Dojo Core Chip、D1芯片、Tile、System Tray等部分,采用独特的设计和强大的计算能力,旨在提升自动驾驶训练效率。

 据彭博社当地时间周五报道,熟知内情的人士表示特斯拉超级计算机“Dojo”项目负责人 Ganesh Venkataramanan 已在上个月离职。

        Ganesh 此前负责特斯拉 Dojo 超算项目的时长已达 5 年。在他出走之后,Dojo 项目的负责人由苹果公司的前高管 Peter Bannon 接任。

        左边的就是被干掉的印度老哥,右边是新接管的Peter Bannon

图片

      这个印度老哥很厉害的,在加入特斯拉之前在芯片行业就很有地位,加入特斯拉之前在AMD干了11年,不是传统那种印度写PPT的PM,或者一问一个不吱声的engineer,这样的大拿都被干掉了,可见Dojo并没有达到马斯克的预期

      不八卦了,我们今天来扒一扒Dojo的底裤

      老实说,我其实第一次看到Dojo就挺喜欢,很帅气,很有设计感...

      什么是Dojo,其实它是由多个单位一层一层搭建起来的,有点像乐高,每一层也都叫Dojo,我们先看宏观层面

图片

      宏观层面你可以理解为Dojo就是Tesla为了加速自己自动驾驶计划,而设计的用于自己做深度学习的计算集群(主要是训练,他没做Grok之前也不需要线上推理啊

图片

      Dojo整个集群呢是由以下4部分以叠罗汉的形式组成的,这个是之前的Dojo2的宣传片,可惜Dojo2还没出,Dojo老哥却先被马斯克干退网了,收拾行李回家了...

图片

  • 自上而下依次是实际运算的chips 又叫Dojo core chip(D1或D2)

  • 然后多个Dojo core chip会封装成一个Tile,一般是25个

  • 然后6个tile会组成一个基本的training 单元(system tray)

  • 每个单元下面挂着Dip和Dnic,这两个东西都带PCIE插槽提供HBM还有对外链接的链路

      

      把我上面说的这些组合起来,就形成了一个机器,每两台机器就组合成中间的那个rack

概念1 Dojo Core:

图片

      它不太等同于我们传统意义上理解的cpu或者gpu的core,它的一个core你可以简单的理解为一个计算机,像图里展示的,scalar常量计算单元,vector向量计算单元,它啥都有,也不是共享内存的,同时有自己的io系统,所以你把它理解为一个独立的小型计算机,是没毛病的

       左边蓝色部分的SRAM也和别的SRAM用法不一样,你们常见的一般SRAM都在片内当cache用,但是这个SRAM就是这个小型计算机的主存了

       最后值得说的一点是这个SRAM读能力是400GB/s,写是270,这个也完美符合深度学习训练的要求,load多,存写CKPT的整体占用时间还是少

第二个概念 D1:

我们来看一下D1 的实力,D2还没露面(再次挽尊印度老哥)

图片

      几个值得看的信息:

  • 台积电7nm,D1就是把我刚才讲的Dojo core 354个给封装到一块chip上,差不多手指甲大小吧,500亿晶体管,TDP400W,它供电也和别的传统的供电方式不一样(后边讲)

  • 362的TFLOPS的BF16和CFP8(这个算力单位不常用,我后面讲),比A100还多一点,有读者会问,你上次说google TPU5P 400多 也和A100差不多,这个才300多怎么也和A100差不多,因为A100是312,上面就是H100的900了,没和TPU5p对标的,所以就只能和A100差不多

    图片

    , 我肯定公平啊,我后面写微软的Maia那个也400多,我也写和A100差不多(你们可以看我是不是公正...)

第三个概念 Tile:

图片

      台积电给它做的SoW方案的晶圆升级,每个Tile有25个D1被封装到这个Tile上,某种程度上可以理解为,Tile其实才是对外服务的最小单元,一个Tile包含io,计算,供电和液冷模块,功率15kw,刚才我说供电方式特别,也就是这,那个倒数第二层黑色的模块就是Tile的供电模块,他不是对整个机器来讲,而是对Tile来计算最小供电单位

第四个概念 Dojo syetem tray:

图片

       把这个概念理解成主机就可以了,下面紫色的就是高速通信链路,把6个Tile封装在这个system tray上面,一个system tray以BF16来计算可以达到54PFLOPS(看好了,是P不是T

图片

),13.4TB/s的双向带宽,100KW,整体看起来还是非常能打的

       

第5个概念 接口处理器 DIP:

图片

      Cpu和Training Tile通信的桥梁,HBM也挂在这,每个DIP接口处理器可以提供32GB的HBM(2条),通过利用TTP(telsa trasport protoal)来通信,这个和Nvlink上面跑的是一样的玩法,都是私有的通信协议,能达到900TB/s的能力(人家两年前就NVlink5级别了,NV今年才发还觉得自己很厉害

图片

);同时也具备50G以太口的能力,和一个32G的PCIE Gen4接口能力

第6个概念 Z-plane+TTPOE

图片

      

      Zplane就是上面的真正的训练单元(一堆Tile),也就是system tray,它们与外界的接口就是通过DIP来通信的,同时也是通过DIP,拿到了HBM的使用权

      每个Tile可以连5个DIP,也就是对外有4.5TB/s的吞吐,同时支持160G的HBM能力(真的让人羡慕)

      TTPOE的说明可见下图,也是私有协议,说白了,你可以把TTPOE当成Tesla自己的RoCE通信形式,因为走的也是RDMA

图片

图片

主机最终长这样:

图片

      512个X86内核,8T内存,640G的PCIE带宽,下面是和外界通信的,load数据,预处理,存读ckpt啥的,反正用于串行任务的就跑下面,上面是真正干训练活儿的Tile群

第7个概念 Cabinet和ExaPod:

图片

图片

      就是2台机器组成一个Cobinet(Rack),多个Cobinet组成ExaPod,对外服务的大集群,集群能力达到1.1EB的Flops,1.3TB的SRAM,14TB的HBM

      今天主要给大家介绍Dojo的概念,后面讲一下它的特性

       本节完

图片

  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值