英伟达于8月22日发布博文,详细解析了其最快的AI芯片——Blackwell Ultra GB300。该芯片相比上一代GB200性能提升了50%,采用双光罩设计,集成了2080亿晶体管,并配备了2万个CUDA核心。GB300还拥有288GB HBM3e显存,带宽高达8TB/s,可容纳3000亿以上参数的模型,支持更长的上下文长度及更高的计算效率。
在芯片设计上,GB300通过NV-HBI高速互连技术将两颗大芯片以10TB/s的带宽连接为单颗GPU,基于台积电4NP工艺制造。它拥有160个SM单元,每个SM单元包含128个CUDA内核,总计20480个CUDA核心与640个第五代Tensor核心,并具备40MB TMEM。
互连方面,Blackwell Ultra支持第五代NVLink,实现每GPU 1.8TB/s的双向带宽,最多可支持576个GPU互连。同时,PCIe Gen6接口提供256GB/s的带宽,并支持与Grace CPU的NVLink-C2C协同工作。在系统层面,Grace Blackwell Ultra超级芯片将一颗Grace CPU直连两颗GPU,构成GB300 NVL72机架系统,峰值算力可达1.1 EFLOPS FP4。
此外,GB300还搭载了升级版GigaThread调度引擎,支持多实例GPU(MIG)灵活分配显存资源,并引入了机密计算与TEE-I/O特性,以保障AI模型与数据的安全。 |