阿里巴巴今日正式發布Qwen3.5系列,並開源該系列的首款模型——Qwen3.5-397B-A17B(亦稱「Qwen3.5-Plus」)。 這是一款原生多模態基礎模型,在推理、編程、智能體能力及多模態理解方面均展現出卓越性能。 面向智能體驅動的 AI 時代,Qwen3.5 旨在幫助開發者及企業以同等算力實現更多任務及更高效開發,為模型的單位推理成本樹立全新標杆。
Qwen3.5 在訓練過程中使用了數萬億混合視覺和語言的數據,涵蓋多語言文本、圖像、影片、STEM(科學、技術、工程、數學)及推理數據,讓模型具備原生多模態能力,可處理文本、圖像及影片輸入,並生成文本輸出。 其架構融合線性注意力機制及稀疏混合專家(MoE)設計,在不犧牲能力的前提下顯著降低計算需求,實現卓越的推理效率。
Qwen3.5-397B-A17B 支持 201 種語言及方言(相較 Qwen3 系列的 119 種大幅提升),覆蓋南亞、大洋洲及非洲等地區的低資源語言,如夏威夷語、斐濟語及尼日爾-剛果語系語言等。 該模型在語言理解及推理、代碼生成、智能體工作流、圖像及影片理解以及GUI交互等多個基準測試中均表現優異,在通用性及性能方面均可與前沿領先模型相媲美。
Qwen3.5-397B-A17B 憑藉其架構設計實現效率躍升。 該模型基於 Qwen3-Next 架構構建,採用更高稀疏度的混合專家設計、混合注意力機制、穩定性優化及多 token 預測技術,推理速度及計算成本顯著優化。 Qwen3.5-397B-A17B 性能可媲美參數規模超萬億的 Qwen3-Max 模型,而內部測試顯示其部署成本實現大幅降低。 在長上下文任務(32,000 token)中,Qwen3.5-397B-A17B 的解碼吞吐量達到 Qwen3-Max 的 8.6 倍,在保持能力不減的前提下實現重大效率突破。
值得一提的是,Qwen3.5 新增多項先進的視覺智能體能力,為現實世界中的多模態智能體應用奠定堅實基礎:
- 作為生產力自動化的視覺智能體:Qwen3.5 可自主作智能手機及電腦以簡化工作流程。 作為移動智能體,它能根據自然語言指令在應用內執行作,並實現跨應用的流暢交互; 作為桌面智能體,可處理多步驟、長周期的桌面工作流,賦能辦公自動化。
- 增強的視覺推理能力:相較前代 Qwen3-VL,Qwen3.5 在視覺推理方面實現顯著飛躍,尤其在科學問題求解等任務中表現突出。 透過融合高精度視覺感知及強大語言推理能力,該模型可執行複雜的多模態推理及自我反思,為實用型多模態智能體應用提供堅實基礎。
- 長影片理解能力(最長2 小時):Qwen3.5 能夠捕捉影片內容中的時序動態,支持多步驟推理。 原生支持最長兩小時的影片輸入,在長影片分析、摘要生成及洞察提取等任務中表現優異。
- 視覺編程:從草圖到代碼:透過打通視覺理解及代碼生成,Qwen3.5 可藉助圖像搜索及生成工具,將手繪 UI 草圖轉化為功能完備的前端代碼,降低開發門檻,加速迭代周期。
為支撐智能體工作流,Qwen3.5 還引入可擴展的強化學習(RL)框架,全面支持純文本、多模態及多輪交互場景下的模型訓練。 該框架可將端到端模型訓練速度提升 3 至 5 倍,原生支持百萬級智能體框架及環境,實現更穩定的多輪交互(對完成智能體任務至關重要),並提升模型泛化能力。
Qwen3.5-397B-A17B現已開源,可在Hugging Face、GitHub及ModelScope平台獲取,亦可透過Qwen Chat體驗,或經由阿里雲模型開發平台「百鍊」調用API使用。 憑藉具競爭力的 token 定價,Qwen3.5 旨在為全球開發者構建 AI 應用提供卓越的性價比。 更多 Qwen3.5 系列模型將於未來數周陸續開源。
截至目前,阿里巴巴已開源超過400個千問系列模型,涵蓋多種參數規模及多模態能力(包括文本、圖像、音頻及影片)。 這些模型累計下載量已突破十億次,全球開發者在千問大模型基礎上創建了超過 20 萬個衍生模型。


















