商湯大裝置落地多個千卡級別國產算力集羣以前瞻認知加速佈局為“百模爭流”賦能

上海 55℃ 0
摘要:

商湯臨港人工智慧計算中心。受訪者供圖.jpeg

商湯臨港人工智慧計算中心。受訪者供圖

  記者李曄

  商湯科技SenseCore大裝置事業群智算中心技術總監宋禕寓記得,作為大裝置重要載體的人工智慧計算中心(簡稱商湯臨港AIDC),從一片瓜田到正式投用,用時僅18個月。

  最新資料顯示,商湯大裝置管理的總算力規模已高達1.2萬petaFLOPS(千兆次浮點運算),其中臨港AIDC就有8100petaFLOPS,且是立項規劃時的2.17倍。大裝置現已實現對萬億參數大模型的生產支持,能保持90%的加速效率,具有超30天穩定訓練不間斷能力,出現訓練間斷時的診斷恢復時長也被優化到了半小時內……

  這些數位,對於當下國內“百模爭流”,有著至關重要的意義。

  前瞻性

  若將大模型訓練過程比作煉丹,那麼以GPU為覈心的算力,便是煉丹爐下的柴火。誰儲備得多,誰就佔據主動。為訓練GPT-3.5模型,OpenAI使用了約1萬顆英偉達GPU。

  但單有晶片儲備還不够,將千卡(訓練消耗的算力卡數量)乃至萬卡並聯同樣關鍵,否則大模型的訓練推理仍無從談起。事實上,2019年左右,商湯大裝置便已具備了千卡並聯能力。而當時,還沒有ChatGPT。

  這並非幸運垂青,而是前瞻認知與實力使然。

  商湯科技以電腦視覺獲得學術界和產業界廣泛認可,對神經網路和深度學習始終有著最深積澱。而視覺資訊本身比語音、文字來得複雜得多,其訓練計算量巨大。“當年,我們在市場上始終找不到如此大規模互聯、可用於AI的算力集羣,甚至有雲廠商說我們的需求太‘小眾’。囙此我們不得不自建大裝置,以支撐公司更高維度的研發和業務需要。”商湯科技董秘辦董事總經理盛世偉說。

  2018年起,商湯每年以數十億元投入SenseCore大裝置,並於2020年夏建設臨港AIDC。這些舉措起初並不為外界看懂及看好。誰能想到,當生成式AI大潮汹湧而來,尤其是海外高性能GPU晶片出口受限情况下,商湯曾經的“小眾”需求,竟已演變為行業最主流最急迫的痛點。

  硬功夫

  可見商湯大裝置的問世與成長,也是其自用算力逐漸走向算力商業化的過程。這關乎一種擔當,但更覈心在於能力。

  “儘管5年前我們就實現了千卡並聯,但要從千卡邁上萬卡,絕非雲淡風輕。”商湯科技大裝置事業群智算中心總經理林海印象深刻,團隊在組第一個3000卡集羣時,整個團隊沒日沒夜地加班了一個月。

  這種工程化的能力,沒有工作可抄。從1000卡到3000卡、從3000卡到5000卡,每上一個臺階,都是對集羣穩定性的巨大挑戰。如何選擇線纜、光模組以降低故障率,怎樣從算力層面進行優化,怎樣將散落在天南地北若干個機房的約3000petaFLOPS算力運載回上海主基地並搭建成群、實現測試和上線……面對這些難啃問題,在大裝置首席科學家林華達的帶領下,團隊沉浸式攻關,堅信厚積才能薄發,集羣穩定性及效率名額被一遍遍重繪。

  在加速國產算力佈局及實現軟硬體協同上,大裝置團隊同樣付出不懈努力。國內大廠此前對英偉達晶片有較大依賴,不僅在於英偉達領先的GPU效能,也在於英偉達的可使GPU效能大幅提升的統一計算架構CUDA。近年來,商湯心心念念於加大國產晶片相容適配,與上海人工智慧實驗室一同研發了DeepLink平行計算體系。這一國內平行計算平臺的佼佼者,可確保國產晶片適配主流的大模型訓練框架和算灋庫,如PyTorch、DeepSpeed等常見的開源訓練框架,以及商湯的OpenMMLab、OpenDILab等開源算法庫。現時,CUDA所能支持的AI大模型計算需求,DeepLink的覆蓋率已在99.5%以上。

  現時,包括華為、寒武紀、壁仞、沐曦等國產晶片在內,商湯大裝置已可深度適配20餘款國產晶片,已落地多個千卡級別國產算力集羣,國產算力商業化行程儼然加速。

  强賦能

  隨著大模型時代到來,算力即服務,模型即服務。去年,商湯作出重大變軌,其業務板塊由過去以AI 1.0為主,切換到AI 2.0。商湯最新財報顯示,2023年,商湯生成式AI業務從無到有,收入已達12億元。這是商湯自2014年成立以來最快破10億元收入體量的新業務。

  據介紹,去年以來,已有上千個參數量數十億至上千億的大模型,在SenseCore商湯大裝置上完成訓練,其中不乏京東、小米、閱文、金山辦公等燈塔客戶,以及瀾舟科技、Tiamat等AI初創公司。一些頭部金融機構及醫院,正調用商湯模型,或依靠商湯大裝置能力,訓練其自身垂類模型。包括蛋白質折疊等多領域的重大基礎科學研究,也獲得了商湯的算力助力。

  如在氣象領域,由上海人工智慧實驗室聯合中國科學技術大學等高校院所推出的全球中期氣象預報AI大模型“風烏”,在商湯大裝置助力之下,首次實現對關鍵氣象要素的有效預報時長達10.75天。而此前,全球範圍內最好的物理模型HRES的有效預報時長為8.5天。另外,“風烏”在80%的評估名額上超越穀歌旗下DeepMind氣象大模型GraphCast。

  大裝置同樣支持了商湯自己的“日日新”大模型體系的高速反覆運算。據透露,今年2月推出的“日日新4.0”版本,在程式碼編寫、資料分析和醫療問答等多場景中,已達到與GPT-4相匹配的能力。“日日新5.0”版本預計今年4月將發佈,效能全面對標GPT-4 Turbo。

  臨港AIDC如今13萬平方米的整體規模中已投用7萬平方米,但未來算力擴容的潜力依然令人振奮。大裝置團隊正繼續以奮進者姿態,為大模型時代貢獻戰畧價值。

标签:

評論留言

  • 熱心網友
    暫時沒有留言

我要留言

◎歡迎參與討論,請在這裡發表您的看法、交流您的觀點。【所有評論需要人工稽核後才能顯示,請勿發佈垃圾資訊】