近日,國內權威大模型評測榜平台司南(OpenCompass)公布其9月大語言模型測評榜單,阿里雲通義千問開源模型Qwen2.5-72B-Instruct位列第一,領先Claude 3.5、GPT-4o等閉源模型,亦成為該評測榜首個奪冠的開源模型。
10月中,司南發布2024年9月榜單,Qwen2.5-72B以綜合評分70.3分奪冠,首次超越Claude 3.5(68.9分)和GPT-4o(67.2分)等頂尖閉源模型。 Qwen2.5-72B-Instruct在此次榜單的多項能力測評中名列前茅。 在代碼能力方面,Qwen2.5-72B-Instruct以74.2分奪冠,不僅能準確完成代碼編寫,還能詳細解釋代碼的功能和邏輯;在數學能力方面,Claude 3.5得分72.1,GPT-4o得分70.6,而Qwen2.5-72B-Instruct則獲得77分成績。
司南表示Qwen2.5-72B-Instruct以其優異的綜合表現,問鼎9月榜單榜首位置,並稱這是開源模型首次佔據榜首,標誌着開源社區在模型領域取得快速進展。
司南是由上海人工智能實驗室研發的大模型評測體平台,國內外主流大模型包括OpenAI、谷歌、Meta、阿里巴巴、智譜AI、零一萬物等主流的大模型均已加入評測,是國內具有影響力的第三方權威評測榜單。 司南自建評測榜單每兩月更新一次,綜合評估商業API模型和開源模型在語言、推理、知識、代碼、數學、指令跟隨和智能體這七大能力維度下的十多項細分任務對主流商業API模型和開源模型進行全面評測分析。
在上個月舉行的雲棲大會上,阿里雲發布其最新開源模型Qwen 2.5,在全球開源社區發布超過100個開源模型,開源模型參數規模從5億到720億不等,其知識、數學和編碼能力均有提升並能支持超過29種語言,可滿足端側及雲部署的需求,支持AI於汽車、遊戲、科學研究等各領域的廣泛應用。
自2023年4月推出,Qwen模型在Hugging Face及阿里雲旗下AI開源社區ModelScope 等平台的下載量已超過4,000萬次。 截至9月底,全球開發者基於Qwen系列二次開發的衍生模型數量也已突破7.43萬,超越Llama的7.28萬,成為全球最大的開源模型群。