阿里雲大模型Qwen2.5問鼎OpenCompass評測榜為首個奪冠開源模型

近日，國內權威大模型評測榜平台司南（OpenCompass）公布其9月大語言模型測評榜單，阿里雲通義千問開源模型Qwen2.5-72B-Instruct位列第一，領先Claude 3.5、GPT-4o等閉源模型，亦成為該評測榜首個奪冠的開源模型。

10月中，司南發布2024年9月榜單，Qwen2.5-72B以綜合評分70.3分奪冠，首次超越Claude 3.5（68.9分）和GPT-4o（67.2分）等頂尖閉源模型。 Qwen2.5-72B-Instruct在此次榜單的多項能力測評中名列前茅。在代碼能力方面，Qwen2.5-72B-Instruct以74.2分奪冠，不僅能準確完成代碼編寫，還能詳細解釋代碼的功能和邏輯;在數學能力方面，Claude 3.5得分72.1，GPT-4o得分70.6，而Qwen2.5-72B-Instruct則獲得77分成績。

司南表示Qwen2.5-72B-Instruct以其優異的綜合表現，問鼎9月榜單榜首位置，並稱這是開源模型首次佔據榜首，標誌着開源社區在模型領域取得快速進展。

司南是由上海人工智能實驗室研發的大模型評測體平台，國內外主流大模型包括OpenAI、谷歌、Meta、阿里巴巴、智譜AI、零一萬物等主流的大模型均已加入評測，是國內具有影響力的第三方權威評測榜單。司南自建評測榜單每兩月更新一次，綜合評估商業API模型和開源模型在語言、推理、知識、代碼、數學、指令跟隨和智能體這七大能力維度下的十多項細分任務對主流商業API模型和開源模型進行全面評測分析。

在上個月舉行的雲棲大會上，阿里雲發布其最新開源模型Qwen 2.5，在全球開源社區發布超過100個開源模型，開源模型參數規模從5億到720億不等，其知識、數學和編碼能力均有提升並能支持超過29種語言，可滿足端側及雲部署的需求，支持AI於汽車、遊戲、科學研究等各領域的廣泛應用。

自2023年4月推出，Qwen模型在Hugging Face及阿里雲旗下AI開源社區ModelScope 等平台的下載量已超過4,000萬次。截至9月底，全球開發者基於Qwen系列二次開發的衍生模型數量也已突破7.43萬，超越Llama的7.28萬，成為全球最大的開源模型群。

Tags: 企業活動

阿里雲大模型Qwen2.5問鼎OpenCompass評測榜為首個奪冠開源模型

其他資訊

騰訊混元Hy3正式發布：Agent能力顯著提升，產品深度融合

騰訊通過“碳尋計劃2.0”催化資金支持新一代減碳創新者，持續推動氣候目標落實

HarmonyOS 7 開發者 Beta 正式啟動，全場景智能操作系統再升級

聯想集團與天津市政府重磅簽約聯手打造新一代AI算力產品研發製造中心

華為發表韜(τ)定律，實現晶體管密度與系統性能突破

阿里邁向AI商業化雲外部收入加速增長40%

AI領新逐力全球！中聯重科科技創新大會盛大舉行

霍尼韋爾四赴鏈博會攜手近百家合作夥伴賦能工業自主化

上海波音啟用全新機庫

華夏凱德商業REIT正式獲批

日產Formula E車隊出征上海，迎戰本賽季中國第二站賽事

釋放醫學AI落地新勢能，聯想攜手華西醫院構築醫療智算新底座

助力生態保護與社區共益，推動可持續戶外生活方式 2026“福特汽車環保獎”全面啟動

阿斯利康與石葯集團深化合作，共同開發新型siRNA藥物

TÜV南德攜手招商車研賦能中國汽車全球化發展

3M攜手全球發明大會中國區，賦能青少年科創教育

聯系我們 | CONTACT US

阿里雲大模型Qwen2.5問鼎OpenCompass評測榜 為首個奪冠開源模型

其他資訊

聯 系 我 們 | CONTACT US

阿里雲大模型Qwen2.5問鼎OpenCompass評測榜為首個奪冠開源模型

聯系我們 | CONTACT US