本文作者:访客

阿里开源下一代基础模型架构,混合注意力机制助力训练成本降低超九成

访客 2025-09-12 15:02:57 35659 抢沙发
阿里成功开源下一代基础模型架构,引入混合注意力机制,大幅降低了训练成本,降幅超过九成,这一创新技术将极大促进人工智能领域的发展,有望为行业带来更高效、更智能的解决方案。
阿里开源下一代基础模型架构,混合注意力机制助力训练成本降低超九成

Qwen3-Next-80B-A3B-Instruct指令模型性能评测图。来源:阿里通义

目前,新模型已在魔搭社区和HuggingFace开源,开发者也可通过Qwen Chat免费体验,或直接调用阿里云百炼平台提供的API服务。

关于Qwen3-Next模型值得注意的创新点,Pine AI联合创始人、首席科学家李博杰对澎湃新闻记者表示,Qwen3-Next采用了混合注意力机制和高稀疏MoE架构,从而大幅提升效率;除了这两大创新点以外,Qwen3-Next还在预训练时采用了多Token预测技术MTP(Mutiple-Token Prediction),模型推理速度大幅提升。

李博杰表示,虽然以上三种技术创新在学界已有研究,但阿里证明了其在工业界的实用性,同时还保持了开源:“Qwen3-Next第一次证明了这些技术能够放在一起共同运作,并且能够在实际的业务场景中展现出很好的能力表现。从评测结果和模型架构来看,Qwen3-Next已经达到了谷歌Geimini 2.5 flash的水平。”

近期,阿里通义动作频频,包括推出超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等。全球AI开源社区HuggingFace的最新数据显示,通义千问Qwen衍生模型数已超17万,稳坐全球第一开源模型。

9月1日,国际权威市场调研机构沙利文(Frost&Sullivan)发布了最新的《中国GenAI市场洞察:企业级大模型调用全景研究,2025》,报告显示,中国企业级大模型调用呈爆发式增长,2025年上半年日均调用量较2024年底实现363%的增长,目前超10万亿Tokens。其中,阿里通义占比17.7%位列第一,是中国企业选择最多的大模型。

文章版权及转载声明

作者:访客本文地址:https://stwujin.com/news/250.html发布于 2025-09-12 15:02:57
文章转载或复制请以超链接形式并注明出处新华金融网

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

验证码

评论列表 (暂无评论,35659人围观)参与讨论

还没有评论,来说两句吧...