发帖
客户端
扫码下载

[AI] 华为发布开源量化技术SINQ,大幅降低大语言模型运行成本

[复制链接]
6 |0
数码小喇叭 发表于 昨天 22:55 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
华为苏黎世计算系统实验室正式推出了一项全新的开源量化技术——SINQ(Sinkhorn归一化量化),该技术旨在显著减少大语言模型(LLM)的显存占用和运行成本。SINQ技术无需复杂的校准流程,可直接融入现有的工作流中,且其代码已通过Apache 2.0许可证在GitHub和Hugging Face平台上开放,供任何组织免费使用、修改及进行商业化部署。

SINQ技术的核心亮点在于其出色的压缩能力。据测试结果显示,该技术能普遍削减不同规模模型的显存占用达60%至70%。这意味着,以往需要超过60GB显存才能运行的大型模型,现在仅需约20GB的环境即可部署。原本依赖企业级GPU(如英伟达A100 80GB或H100)的计算任务,现在使用一张售价约1600美元的消费级显卡(如英伟达RTX 4090)就能完成。对于云端用户来说,每小时的算力成本也将大幅降低。

SINQ技术之所以能实现如此卓越的性能,主要得益于两大创新点。首先,它采用了“双轴采样”策略,替代了传统的单尺度因子量化方法。通过分别为矩阵的行和列设置独立的缩放向量,该技术能更灵活地分散量化误差,有效减少异常值的影响。其次,SINQ引入了一种受Sinkhorn迭代启发的快速归一化算法,用于平衡矩阵行列的标准差,从而最小化“矩阵不平衡”现象,提升了量化后的模型精度。

在性能评估中,SINQ的表现全面超越了多种主流的免校准量化方法,如RTN、HQQ等。在处理Qwen3、LLaMA等多种主流模型时,SINQ在WikiText2等标准测试集上显著降低了模型的困惑度,其性能接近甚至达到了需要数据校准的方案水平。此外,SINQ的量化速度极快,比HQQ快约2倍,比AWQ快30倍以上,充分满足了研究与生产环境中对效率的严格要求。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表