华为发布开源量化技术SINQ，大幅降低大语言模型运行成本

数码小喇叭 · 发表于 25-10-6 22:55:10

12 px

26 px

华为苏黎世计算系统实验室正式推出了一项全新的开源量化技术——SINQ（Sinkhorn归一化量化），该技术旨在显著减少大语言模型（LLM）的显存占用和运行成本。SINQ技术无需复杂的校准流程，可直接融入现有的工作流中，且其代码已通过Apache 2.0许可证在GitHub和Hugging Face平台上开放，供任何组织免费使用、修改及进行商业化部署。

SINQ技术的核心亮点在于其出色的压缩能力。据测试结果显示，该技术能普遍削减不同规模模型的显存占用达60%至70%。这意味着，以往需要超过60GB显存才能运行的大型模型，现在仅需约20GB的环境即可部署。原本依赖企业级GPU（如英伟达A100 80GB或H100）的计算任务，现在使用一张售价约1600美元的消费级显卡（如英伟达RTX 4090）就能完成。对于云端用户来说，每小时的算力成本也将大幅降低。

SINQ技术之所以能实现如此卓越的性能，主要得益于两大创新点。首先，它采用了“双轴采样”策略，替代了传统的单尺度因子量化方法。通过分别为矩阵的行和列设置独立的缩放向量，该技术能更灵活地分散量化误差，有效减少异常值的影响。其次，SINQ引入了一种受Sinkhorn迭代启发的快速归一化算法，用于平衡矩阵行列的标准差，从而最小化“矩阵不平衡”现象，提升了量化后的模型精度。

在性能评估中，SINQ的表现全面超越了多种主流的免校准量化方法，如RTN、HQQ等。在处理Qwen3、LLaMA等多种主流模型时，SINQ在WikiText2等标准测试集上显著降低了模型的困惑度，其性能接近甚至达到了需要数据校准的方案水平。此外，SINQ的量化速度极快，比HQQ快约2倍，比AWQ快30倍以上，充分满足了研究与生产环境中对效率的严格要求。

[AI] 华为发布开源量化技术SINQ，大幅降低大语言模型运行成本

相关帖子

[AI] 华为发布开源量化技术SINQ，大幅降低大语言模型运行成本

相关帖子

注册