阿里巴巴今日正式发布Qwen3.5系列,并开源该系列的首款模型——Qwen3.5-397B-A17B(亦称「Qwen3.5-Plus」)。 这是一款原生多模态基础模型,在推理、编程、智能体能力及多模态理解方面均展现出卓越性能。 面向智能体驱动的 AI 时代,Qwen3.5 旨在帮助开发者及企业以同等算力实现更多任务及更高效开发,为模型的单位推理成本树立全新标杆。
Qwen3.5 在训练过程中使用了数万亿混合视觉和语言的数据,涵盖多语言文本、图像、影片、STEM(科学、技术、工程、数学)及推理数据,让模型具备原生多模态能力,可处理文本、图像及影片输入,并生成文本输出。 其架构融合线性注意力机制及稀疏混合专家(MoE)设计,在不牺牲能力的前提下显著降低计算需求,实现卓越的推理效率。
Qwen3.5-397B-A17B 支持 201 种语言及方言(相较 Qwen3 系列的 119 种大幅提升),覆盖南亚、大洋洲及非洲等地区的低资源语言,如夏威夷语、斐济语及尼日尔-刚果语系语言等。 该模型在语言理解及推理、代码生成、智能体工作流、图像及影片理解以及GUI交互等多个基准测试中均表现优异,在通用性及性能方面均可与前沿领先模型相媲美。
Qwen3.5-397B-A17B 凭借其架构设计实现效率跃升。 该模型基于 Qwen3-Next 架构构建,采用更高稀疏度的混合专家设计、混合注意力机制、稳定性优化及多 token 预测技术,推理速度及计算成本显著优化。 Qwen3.5-397B-A17B 性能可媲美参数规模超万亿的 Qwen3-Max 模型,而内部测试显示其部署成本实现大幅降低。 在长上下文任务(32,000 token)中,Qwen3.5-397B-A17B 的解码吞吐量达到 Qwen3-Max 的 8.6 倍,在保持能力不减的前提下实现重大效率突破。
值得一提的是,Qwen3.5 新增多项先进的视觉智能体能力,为现实世界中的多模态智能体应用奠定坚实基础:
- 作为生产力自动化的视觉智能体:Qwen3.5 可自主作智能手机及电脑以简化工作流程。 作为移动智能体,它能根据自然语言指令在应用内执行作,并实现跨应用的流畅交互; 作为桌面智能体,可处理多步骤、长周期的桌面工作流,赋能办公自动化。
- 增强的视觉推理能力:相较前代 Qwen3-VL,Qwen3.5 在视觉推理方面实现显著飞跃,尤其在科学问题求解等任务中表现突出。 透过融合高精度视觉感知及强大语言推理能力,该模型可执行复杂的多模态推理及自我反思,为实用型多模态智能体应用提供坚实基础。
- 长影片理解能力(最长2 小时):Qwen3.5 能够捕捉影片内容中的时序动态,支持多步骤推理。 原生支持最长两小时的影片输入,在长影片分析、摘要生成及洞察提取等任务中表现优异。
- 视觉编程:从草图到代码:透过打通视觉理解及代码生成,Qwen3.5 可借助图像搜索及生成工具,将手绘 UI 草图转化为功能完备的前端代码,降低开发门槛,加速迭代周期。
为支撑智能体工作流,Qwen3.5 还引入可扩展的强化学习(RL)框架,全面支持纯文本、多模态及多轮交互场景下的模型训练。 该框架可将端到端模型训练速度提升 3 至 5 倍,原生支持百万级智能体框架及环境,实现更稳定的多轮交互(对完成智能体任务至关重要),并提升模型泛化能力。
Qwen3.5-397B-A17B现已开源,可在Hugging Face、GitHub及ModelScope平台获取,亦可透过Qwen Chat体验,或经由阿里云模型开发平台「百炼」调用API使用。 凭借具竞争力的 token 定价,Qwen3.5 旨在为全球开发者构建 AI 应用提供卓越的性价比。 更多 Qwen3.5 系列模型将于未来数周陆续开源。
截至目前,阿里巴巴已开源超过400个千问系列模型,涵盖多种参数规模及多模态能力(包括文本、图像、音频及影片)。 这些模型累计下载量已突破十亿次,全球开发者在千问大模型基础上创建了超过 20 万个衍生模型。


















