阿里开源下一代基础模型架构，混合注意力机制助力训练成本降低超九成

访客 2025-09-12 15:02:57 35659 抢沙发

默认

阿里成功开源下一代基础模型架构，引入混合注意力机制，大幅降低了训练成本，降幅超过九成，这一创新技术将极大促进人工智能领域的发展，有望为行业带来更高效、更智能的解决方案。

Qwen3-Next-80B-A3B-Instruct指令模型性能评测图。来源：阿里通义

目前，新模型已在魔搭社区和HuggingFace开源，开发者也可通过Qwen Chat免费体验，或直接调用阿里云百炼平台提供的API服务。

关于Qwen3-Next模型值得注意的创新点，Pine AI联合创始人、首席科学家李博杰对澎湃新闻记者表示，Qwen3-Next采用了混合注意力机制和高稀疏MoE架构，从而大幅提升效率；除了这两大创新点以外，Qwen3-Next还在预训练时采用了多Token预测技术MTP（Mutiple-Token Prediction），模型推理速度大幅提升。

李博杰表示，虽然以上三种技术创新在学界已有研究，但阿里证明了其在工业界的实用性，同时还保持了开源：“Qwen3-Next第一次证明了这些技术能够放在一起共同运作，并且能够在实际的业务场景中展现出很好的能力表现。从评测结果和模型架构来看，Qwen3-Next已经达到了谷歌Geimini 2.5 flash的水平。”

近期，阿里通义动作频频，包括推出超万亿参数的Qwen3-Max-Preview、文生图及编辑模型Qwen-Image-edit、语音识别模型Qwen3-ASR-Flash等。全球AI开源社区HuggingFace的最新数据显示，通义千问Qwen衍生模型数已超17万，稳坐全球第一开源模型。

9月1日，国际权威市场调研机构沙利文（Frost&Sullivan）发布了最新的《中国GenAI市场洞察：企业级大模型调用全景研究，2025》，报告显示，中国企业级大模型调用呈爆发式增长，2025年上半年日均调用量较2024年底实现363%的增长，目前超10万亿Tokens。其中，阿里通义占比17.7%位列第一，是中国企业选择最多的大模型。

标签：模型阿里架构