近日,国内权威大模型评测榜平台司南(OpenCompass)公布其9月大语言模型测评榜单,阿里云通义千问开源模型Qwen2.5-72B-Instruct位列第一,领先Claude 3.5、GPT-4o等闭源模型,亦成为该评测榜首个夺冠的开源模型。
10月中,司南发布2024年9月榜单,Qwen2.5-72B以综合评分70.3分夺冠,首次超越Claude 3.5(68.9分)和GPT-4o(67.2分)等顶尖闭源模型。 Qwen2.5-72B-Instruct在此次榜单的多项能力测评中名列前茅。 在代码能力方面,Qwen2.5-72B-Instruct以74.2分夺冠,不仅能准确完成代码编写,还能详细解释代码的功能和逻辑;在数学能力方面,Claude 3.5得分72.1,GPT-4o得分70.6,而Qwen2.5-72B-Instruct则获得77分成绩。
司南表示Qwen2.5-72B-Instruct以其优异的综合表现,问鼎9月榜单榜首位置,并称这是开源模型首次占据榜首,标志着开源社区在模型领域取得快速进展。
司南是由上海人工智能实验室研发的大模型评测体平台,国内外主流大模型包括OpenAI、谷歌、Meta、阿里巴巴、智谱AI、零一万物等主流的大模型均已加入评测,是国内具有影响力的第三方权威评测榜单。 司南自建评测榜单每两月更新一次,综合评估商业API模型和开源模型在语言、推理、知识、代码、数学、指令跟随和智能体这七大能力维度下的十多项细分任务对主流商业API模型和开源模型进行全面评测分析。
在上个月举行的云栖大会上,阿里云发布其最新开源模型Qwen 2.5,在全球开源社区发布超过100个开源模型,开源模型参数规模从5亿到720亿不等,其知识、数学和编码能力均有提升并能支持超过29种语言,可满足端侧及云部署的需求,支持AI于汽车、游戏、科学研究等各领域的广泛应用。
自2023年4月推出,Qwen模型在Hugging Face及阿里云旗下AI开源社区ModelScope 等平台的下载量已超过4,000万次。 截至9月底,全球开发者基于Qwen系列二次开发的衍生模型数量也已突破7.43万,超越Llama的7.28万,成为全球最大的开源模型群。