火山引擎發布大模型訓練云平臺:
支持萬卡訓練,集群性能提升3倍
2023-04-18 14:52:00 來源:
□ 郝云
AI大模型技術應用爆發,云市場也在加速變革。
4月18日,火山引擎在其舉辦的“原動力大會”上發布自研DPU等系列云產品,并推出新版機器學習平臺:支持萬卡級大模型訓練、微秒級延遲網絡,讓大模型訓練更穩更快?;鹕揭婵偛米T待表示,AI大模型有巨大潛力和創新空間,火山引擎會服務客戶做好大模型,共同推動各行業的智能化升級。
“國內有數十家做大模型的企業,大多已經在火山引擎云上”,譚待認為,大模型不會一家獨大?;鹕揭鎸⒔尤攵嗉掖竽P蜕疃群献?,為企業和消費者提供更豐富的AI應用。
會上,火山引擎宣布與字節跳動國內業務并池?;趦韧饨y一的云原生基礎架構,抖音等業務的空閑計算資源可極速調度給火山引擎客戶使用,離線業務資源分鐘級調度10萬核CPU,在線業務資源也可潮汐復用,彈性計算搶占式實例的價格最高可優惠80%以上。
讓大模型訓練快速跑起來
自2022年年底發布以來,ChatGPT成為人類歷史上最快獲得上億用戶的消費級互聯網應用。最新的GPT-4大模型,更是在法律、數學、生物學等多項測試中超過90%人類。
譚待表示,國內很多科技公司投入到大模型建設中,他們有優秀的技術團隊,也有豐富的行業知識和創新想法,但往往缺乏經過大規模場景實踐的系統工程能力?;鹕揭嬉龅木褪菫榇竽P涂蛻籼峁└叻€定性和高性價比的AI基礎設施。
據悉,火山引擎機器學習平臺經過抖音等海量用戶業務長期打磨,支持單任務萬卡級別的超大規模分布式并行訓練場景。GPU彈性計算實例可靈活調度資源,隨用隨取,最高可以為客戶節省70%的算力成本。
字節跳動副總裁楊震原認為,業務創新需要試錯,試錯要大膽、敏捷,但試錯也一定要控制成本。通過潮汐、混部等方式,火山引擎實現資源的高利用率和極低成本。以抖音推薦系統為例,工程師用15個月的樣本訓練某個模型,5小時就能完成訓練,成本只有5000元?;鸨W的抖音“AI繪畫”特效,從啟動到上線只用一周多時間,模型由一名算法工程師完成訓練。
圖為字節跳動副總裁楊震原分享抖音的機器學習實踐。
MiniMax是目前國內少數已經推出自研大模型產品的AI技術公司,擁有文本、視覺、聲音三種通用大模型引擎能力。據MiniMax聯合創始人楊斌介紹,MiniMax與火山引擎合作建立了超大規模實驗平臺,實現千卡級常態化訓練;超大規模推理平臺有萬卡級算力池,支撐單日過億次調用。在火山引擎的云上,MiniMax大模型業務實現快速突破。
譚待透露,火山引擎的大模型云平臺獲得智譜AI、昆侖萬維等眾多企業的良好反饋。國內大模型領域,七成以上已是火山引擎客戶。
向“多云多模型”架構演進
有評論稱,大模型將成為云廠商彎道超車的機會。譚待對此表示,大模型還在發展初期,面臨數據安全、內容安全、隱私保護、版權保護等許多問題需要努力解決。但可以預見,大模型將帶動云上AI算力急劇增長,AI算力的工作負載與通用算力的差距會越來越小,這會為各家云廠商帶來新的機會,同時也會對數據中心、軟硬件棧、PaaS平臺帶來新的挑戰。
以數據中心的算力結構為例,譚待表示:“大模型需要大算力,虛擬化會帶來資源損耗,規模越大就損耗越多。未來3年內,大規模的算力中心,都將形成‘CPU+GPU+DPU’的混合算力結構,CPU負責通用計算,GPU負責AI計算,DPU負責資源卸載、加速和隔離,提升資源效率”。
此次原動力大會上,火山引擎發布了新一代自研DPU,實現計算、存儲、網絡的全組件卸載,釋放更多資源給業務負載?;鹕揭姹M管是“最年輕”的云廠商,其自研DPU已達到業界領先水平,網絡性能高達5000萬pps轉發能力、延遲低至20us?;谧匝蠨PU的各類計算實例性能也有顯著提升,例如適用于大模型分布式并行訓練場景的GPU實例,相較上一代實例集群性能最高提升3倍以上。
自動駕駛公司毫末智行與火山引擎合作打造智算中心,為DriveGPT自動駕駛生成式預訓練模型提供強大的算力支持。毫末智行CEO顧維灝介紹,DriveGPT使用量產車4000萬公里的人駕數據訓練,參數規模達1200億,對自動駕駛認知決策模型進行持續優化。
譚待表示,在大模型及下游應用發展推動下,無論傳統企業還是初創企業,對AI算力都有迫切需求,企業使用多家云服務將成為常態。同時,各行業有自己高質量的私有語料,大模型不會一家獨大,而是會在千行百業生長,形成多模型共生甚至協作的生態?!拔磥韺⑹恰嘣贫嗄P汀臅r代”,譚待稱。
圖為火山引擎總裁譚待宣布支持“多云多模型”的未來架構。
火山引擎也順勢推出了分布式云原生平臺、多云安全、多云CDN、veStack混合云平臺等系列產品,支持客戶更好地使用多家云服務?!白止澨鴦佑眠^全球幾乎每一朵公有云,以及大多數CDN,形成一套完整的分布式云管理體系和架構實踐”,譚待堅信火山引擎是最懂多云和分布式云的云服務商,這些技術能力都會毫無保留地提供給客戶。
楊震原進一步表示,火山引擎對內對外提供統一的產品,抖音、今日頭條等APP開屏都加上了“火山引擎提供計算服務”。楊震原說:“數字化時代,機器學習可以智能、高效地圍繞目標解決問題。數字化的下一步是智能化,我們在機器學習方面的技術積累和經驗,都會通過火山引擎提供給外部客戶,幫助更多企業做好智能化”。