发帖
客户端
扫码下载

[AI] NVIDIA Rubin CPX:专为推理Prefill阶段设计的低成本显卡

[复制链接]
4 |0
未来视野 发表于 昨天 23:34 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
NVIDIA推出的Rubin CPX显卡,是专为推理阶段的prefill任务打造的一款低成本解决方案。这款显卡的命名“Rubin”揭示了其与下一代Rubin GPU数据中心卡共享相同架构的背景,但在显存配置上却有着显著差异。Rubin CPX采用了128GB的GDDR 7显存,与游戏卡保持一致,而非数据中心计算卡常用的HBM显存,这是CPX与Rubin系列其他成员的最大区别。

以当前市场上的RTX 5090为例,其GDDR 7显存的带宽达到了1.8TB/s。相比之下,采用HBM 3e显存的B200和B300显卡,显存带宽高达8TB/s。不过,考虑到CPX作为下一代显卡的成员,未来Rubin系列正式GPU将升级至HBM 4显存,根据海力士的量产计划,其带宽还将翻倍至16TB/s。而Rubin CPX由于采用GDDR 7显存,带宽预计为2TB/s,与未来HBM 4显存的显卡相比,带宽差距接近10倍。然而,正是这种显存配置的选择,使得CPX的成本得以有效控制,因为数据中心常用的HBM显存价格至少是GDDR 7显存的三倍。

在推理任务中,prefill阶段负责对输入上下文进行填充,决定了首个token的生成时间,这是一个计算密集型(compute bound)的任务。而decode阶段则负责生成新的token,每次生成都需要遍历模型权重,对显存带宽有较高要求,属于内存密集型(memory bound)任务。Rubin CPX在算力不减的情况下,通过更换显存类型,更专注于服务prefill阶段,为用户提供了一种经济高效的解决方案。

尽管新闻稿中频繁强调CPX支持1M上下文,但128GB显存在数据中心卡中并不算特别突出。其背后的真正意图在于,通过较低的成本,使用户能够购买更多显卡,从而支持超长上下文的prefill任务。在实际应用中,prefill阶段的上下文长度依然至关重要,例如在使用Claude Code进行编码时,输入长度往往超过20K token。

为了满足不同工作负载的需求,NVIDIA还推出了NVL 144 CPX机架,该机架在单个主板上集成了2个Vera CPU、4个Rubin GPU和8个CPX显卡,通过Connect X-9技术实现高速互联。然而,现实世界中的工作负载比例并不确定,CPX负责prefill,Rubin GPU负责decode,中间的KV Cache需要通过传输解决,两者的配比并不一定是固定的1:2。因此,这种硬件上的固定配比在实际使用中可能不够灵活。最终,这种配比方案需要模型厂商如OpenAI在设计模型架构时预先考虑,以确保实际工作负载能够完美匹配硬件配比。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码讨论
畅谈数码,分享心得。
快速回复 返回顶部 返回列表