今年5月,英特尔展示了基于Arc Pro B60 GPU的“Battlematrix”多GPU工作站平台,该平台主打本地AI大模型部署能力。近日,这一平台接受了详细测试,其最多可单机配置八颗Arc Pro B60 GPU,合计提供192GB显存,并集成20个Xe2核心与160个XMX AI引擎,单卡提供约12.28 TFLOPS FP32性能和197 TOPS的INT8 AI算力。Arc Pro B60与游戏向的Arc B580共用同一颗GPU核心,但显存容量翻倍,运行频率更高,单卡带宽表现出色。
“Battlematrix”平台的关键特性在于其双GPU设计,两颗完整的B60 GPU被集成在同一块双槽位显卡上,通过PCIe 5.0接入主板,提升了显卡密度,使得工作站平台可支持最多四块双GPU卡,总计八颗GPU。在满配条件下,该平台总显存达到192GB,提供强大的INT8性能和显存带宽。这一平台需要具备四条PCIe 5.0插槽并支持bifurcation的主板,同时搭配一颗英特尔Xeon 6处理器。
应用场景方面,“Battlematrix”平台面向需要在本地构建AI推理与大模型开发环境的团队,尤其关注数据隐私、敏感代码处理或希望降低云端推理成本的组织。大显存可支持大模型推理、多模型协同运行及较大的上下文窗口。英特尔还计划在Arc Pro B60上引入SR-IOV虚拟化能力,支持未来的多用户虚拟桌面或图形虚拟化应用。
在vLLM推理基准测试中,“Battlematrix”平台表现出明显的规模效应。在低并发场景下,使用满足模型显存需求的最少GPU数量可获得更好的单用户性能;而在高并发批量推理任务中,八卡配置能够提供更高吞吐量。不过,测试中也发现当前软件栈仍在早期阶段,量化格式支持有限。总体来看,Arc Pro B60 Battlematrix平台以较低成本提供高显存与多GPU密度,为本地AI推理环境带来新的选择,但软件成熟度仍需进一步完善。 |