发帖
客户端
扫码下载

[AI] 美团LongCat-Flash-Chat大模型发布并开源,性能领先成本低廉

[复制链接]
15 |0
未来视野 发表于 前天 16:40 | 显示全部楼层 |阅读模式
这里可以调整气泡内文字大小!滑动试试吧! ×
12 px
26 px
美团正式发布了其自主研发的LongCat-Flash-Chat大模型,并同步在Github和Hugging Face平台开源,供全球开发者和研究人员使用。该模型采用了创新的混合专家模型(Mixture-of-Experts,MoE)架构,总参数规模达到560B,但激活参数仅为18.6B至31.3B(平均27B),这种设计使得模型在计算效率和性能上实现了双重优化。

LongCat-Flash模型的一个显著特点是其“零计算专家(Zero-Computation Experts)”机制。该机制允许每个token根据上下文需求仅激活部分参数,从而实现算力的高效利用和按需分配。此外,模型在层间铺设了跨层通道,使得MoE的通信和计算能够并行进行,进一步提高了训练和推理效率。配合定制化的底层优化,LongCat-Flash在短短30天内就完成了训练,并在H800硬件上实现了单用户100+ tokens/s的推理速度。

在成本方面,LongCat-Flash同样表现出色。该模型在保持极致生成速度的同时,输出成本低至5元/百万token,这一成本效益显著优于行业同等规模甚至规模更小的模型。根据多项基准测试的综合评估,LongCat-Flash在通用领域知识、智能体工具使用、编程能力和指令遵循能力等方面均取得了优异成绩。例如,在ArenaHard-V2基准测试中,该模型以86.50的成绩位列所有评估模型中的第二;在MMLU和CEval基准测试中,分别得分89.71和90.44,与国内领先模型不相上下。

在智能体工具使用方面,LongCat-Flash的表现尤为突出。即使在参数规模更大的模型对比中,该模型在τ2-Bench基准测试中的表现依然超越其他模型。在高复杂度场景下,LongCat-Flash在VitaBench基准测试中以24.30的得分位居第一。编程能力方面,该模型在TerminalBench和SWE-Bench-Verified基准测试中也取得了优异成绩,分别位列第二和得分60.4。在指令遵循能力方面,LongCat-Flash在IFEval、COLLIE和Meeseeks-zh等多个基准测试中均斩获最佳成绩。

此次开源的LongCat-Flash-Chat大模型不仅为自然语言处理领域的研究和应用提供了新的有力工具,也展示了美团在人工智能领域的深厚实力和创新精神。开发者可通过以下链接获取模型资源:Hugging Face平台(https://huggingface.co/meituan-longcat/LongCat-Flash-Chat)和Github平台(https://github.com/meituan-longcat/LongCat-Flash-Chat),或访问体验官网(https://longcat.ai/)进行在线交互测试。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门版块
数码资讯
最新数码动态,尽在掌握。
快速回复 返回顶部 返回列表