亚马逊云科技在AI训练芯片领域迈出重要一步,正式推出了其最新一代产品Trainium3。在当地时间12月2日于拉斯维加斯举行的AWS re:Invent 2025年度技术大会上,这家云计算巨头不仅展示了基于尖端3纳米制程Trainium3芯片打造的Trainium3 UltraServer系统,还首次透露了其AI训练产品路线图上的下一代产品——正在研发中的Trainium4,据悉该芯片将支持与英伟达芯片协同工作。
据亚马逊云科技介绍,Trainium3芯片及其配套系统在AI模型训练和推理性能上实现了显著提升。与第二代产品相比,新系统在训练和高负载推理场景下的速度提升超过4倍,内存容量也增至4倍。此外,数千台UltraServer可相互连接,构建出搭载最多100万颗Trainium3芯片的超大规模集群,规模达到上一代系统的10倍,每台UltraServer最多可容纳144颗Trainium3芯片。更令人瞩目的是,新一代芯片和系统在能效方面较前代提升了40%,在全球竞相建设高耗电量数据中心之际,亚马逊云科技正致力于打造更节能的基础设施。
亚马逊云科技强调,这些高效系统不仅符合公司自身的商业利益,同时也将为使用其AI云服务的客户节省开支。包括Anthropic(亚马逊亦为其投资者)、日本大语言模型公司Karakuri、SplashMusic以及Decart在内的多家客户已率先采用第三代Trainium芯片及系统,并显著降低了推理成本。
此外,亚马逊云科技还简要披露了下一代芯片Trainium4的开发进展。该公司承诺,Trainium4将带来又一次显著的性能飞跃,并将支持英伟达的NVLink Fusion高速芯片互连技术。这意味着基于Trainium4的系统不仅能与英伟达GPU协同运行、扩展整体性能,还能继续利用亚马逊自研的低成本服务器机架技术。通过支持NVLink Fusion,Trainium4有望降低迁移门槛,吸引更多原本为英伟达GPU优化的大型AI应用转向亚马逊云平台。不过,亚马逊尚未公布Trainium4的具体发布时间表,外界或将在2026年的re:Invent大会上获得更多详细信息。 |