近日,百度智能雲成功點亮崑崙芯三代萬卡集群,這也是國內首個正式點亮的自研萬卡集群。百度智能雲將進一步點亮3萬卡集群。
國產崑崙芯萬卡集群以及未來三萬卡集群的建設,從硬件到軟件,技術挑戰是全方位的。而24年9月升級的百度百舸AI異構計算平台4.0,圍繞落地大模型全旅程的算力需求,在集群創建、開發實驗、模型訓練、模型推理四大方面,能為企業提供“多、快、穩、省”的AI基礎設施,在萬卡集群的建設中發揮了至關重要的作用。
首先,突破硬件擴展性瓶頸,如卡間互聯的拓撲限制,避免通信帶寬成為瓶頸;同時,圍繞芯片及集群功耗,基於萬卡 規模常規方案功耗可達十兆瓦或更高,採用創新性散熱方案,從而解決萬卡集群的能效與散熱問題;完善模型的分布式訓練優化,採用高效並行化任務切分策略,訓練主流開源模型的集群MFU提升至58%;在提升穩定性方面,提供容錯與穩定性機制,避免由於單卡故障率隨規模指數上升而造成的萬卡集群有效性大幅下降,保障有效訓練率達到98%;最後,針對機間通信帶寬需求,建設超大規模HPN高性能網絡,優化拓撲結構,從而降低通信瓶頸,帶寬有效性達到90%以上。
同時,崑崙芯作為百度自研的AI芯片,憑藉其獨特的技術優勢,在百舸4.0的能力加持下,在生成式人工智能時代展現出了巨大的競爭力。
未來一年,將是各種AI原生應用爆發的黃金時期。自研芯片和萬卡集群的建成帶來了強大的算力支持,同時有效提升百度和客戶的資源整體利用率,降低大模型訓練成本,推動了模型降本的趨勢,為整個行業提供了新的思路和方向。
隨着國產大模型的興起,萬卡集群已從單純算力供給逐漸向“有效”算力供給過渡,通過模型優化、並行策略、有效訓練率提升、動態資源分配等手段,智能調度任務,將訓練、微調、推理任務混合部署,最大化提升集群綜合利用率,降低單位算力成本,從而真正發揮算力效能。百度智能雲將始終陪伴在所有企業身旁,通過本次萬卡集群點亮和應用落地,持續為企業提供源源不斷的穩定、高效的算力動能。