华为苏黎世计算系统实验室正式推出了一项全新的开源量化技术——SINQ(Sinkhorn归一化量化),该技术旨在显著减少大语言模型(LLM)的显存占用和运行成本。SINQ技术无需复杂的校准流程,可直接融入现有的工作流中,且其代码已通过Apache 2.0许可证在GitHub和Hugging Face平台上开放,供任何组织免费使用、修改及进行商业化部署。
SINQ技术的核心亮点在于其出色的压缩能力。据测试结果显示,该技术能普遍削减不同规模模型的显存占用达60%至70%。这意味着,以往需要超过60GB显存才能运行的大型模型,现在仅需约20GB的环境即可部署。原本依赖企业级GPU(如英伟达A100 80GB或H100)的计算任务,现在使用一张售价约1600美元的消费级显卡(如英伟达RTX 4090)就能完成。对于云端用户来说,每小时的算力成本也将大幅降低。
SINQ技术之所以能实现如此卓越的性能,主要得益于两大创新点。首先,它采用了“双轴采样”策略,替代了传统的单尺度因子量化方法。通过分别为矩阵的行和列设置独立的缩放向量,该技术能更灵活地分散量化误差,有效减少异常值的影响。其次,SINQ引入了一种受Sinkhorn迭代启发的快速归一化算法,用于平衡矩阵行列的标准差,从而最小化“矩阵不平衡”现象,提升了量化后的模型精度。
在性能评估中,SINQ的表现全面超越了多种主流的免校准量化方法,如RTN、HQQ等。在处理Qwen3、LLaMA等多种主流模型时,SINQ在WikiText2等标准测试集上显著降低了模型的困惑度,其性能接近甚至达到了需要数据校准的方案水平。此外,SINQ的量化速度极快,比HQQ快约2倍,比AWQ快30倍以上,充分满足了研究与生产环境中对效率的严格要求。 |