大模型對智能算力提出更高要求
通用算力、智能算力和超算算力三者的區(qū)別在于,通用算力,由基于CPU芯片的服務器提供算力,主要用于基礎通用計算。日常提到的云計算、邊緣計算等都屬于基礎算力,它為移動計算、物聯(lián)網(wǎng)等提供計算支持。
智能算力,由基于GPU、FPGA、ASIC等AI芯片的加速計算平臺提供的算力,主要用于人工智能的訓練和推理計算,比如語音、圖像和視頻的處理。在技術架構上,人工智能的核心計算能力由訓練、推理等專用計算芯片提供,注重單精度、半精度等多樣化計算能力。
超算算力,由超級計算機等高性能計算集群提供算力,主要用于尖端科學領域的計算,比如行星模擬、藥物分子設計、基因分析等。在技術架構上,超算的核心計算能力由高性能CPU或協(xié)處理器提供,注重雙精度通用計算能力,追求精確的數(shù)值計算。
2023年以來大模型迅猛發(fā)展,更是讓智算中心成為發(fā)展的重點。當然,相比于之前,大模型對智算中心也提出更高要求。首先是隨著大模型規(guī)模的不斷擴大,對計算資源的需求不斷增加,智算中心需要提供更強大的計算能力來支持大模型的訓練和推理任務。
其次是大模型需要大量的存儲空間來存儲參數(shù)、權重和中間結(jié)果,智算中心需要提供高效的存儲系統(tǒng)。第三是大模型的訓練和推理過程中會產(chǎn)生大量的數(shù)據(jù),需要進行頻繁的數(shù)據(jù)傳輸和通信,智算中心需要具備高速的網(wǎng)絡連接和大規(guī)模的數(shù)據(jù)傳輸能力。
第四則是大模型的訓練和推理過程需要大量的計算資源,導致能源消耗的增加,智算中心需要采取節(jié)能措施,如使用高效的硬件設備和優(yōu)化算法,以降低能源消耗。另外還有,大模型的訓練和推理過程需要進行復雜的模型管理和調(diào)度,包括模型版本控制、并行訓練和推理等,智算中心需要提供相應的管理和調(diào)度工具來支持這些任務。
各地和企業(yè)建設智算中心支持大模型
對于各地方和企業(yè)來說,建設能夠支持大模型的智算中心已經(jīng)成為當下的重點。近日,上海電信聯(lián)合徐匯區(qū)政府共同舉辦“算力惠模都 萬兆連速城”人工智能公共算力服務產(chǎn)品發(fā)布會,消息稱,2024年上半年,中國電信將在上海規(guī)劃建設到達15000卡,總算力超4500P。其中,單池新建國產(chǎn)算力達萬卡,是國內(nèi)首個超大規(guī)模國產(chǎn)算力液冷集群。
據(jù)介紹,該集群采用新一代國產(chǎn)AI算力,實現(xiàn)了全棧自主創(chuàng)新和技術突破,通過高速RDMA(遠程直接數(shù)據(jù)存?。┻B接各物理機節(jié)點,提供低延時、高吞吐量、無損通信網(wǎng)絡和強大的并行計算能力,是目前規(guī)模最大的全國產(chǎn)液冷機房,多項技術指標領跑全國。
該集群最高可支持萬億參數(shù)大模型,便于各科研院校、大模型訓練公司等機構和企業(yè)實現(xiàn)物理資源獨享,無虛擬化損耗,滿足AI計算、深度學習、圖形渲染等復雜訓練任務對算力的要求。
早前廣州海珠區(qū)和中國電信廣州分公司也攜手揭牌了粵港澳大灣區(qū)首個服務大模型的智算中心。該智算中心搭載華為最新一代高端算力芯片昇騰910B,昇騰910B在大模型訓練場景性能和A100持平,可提供全流程工具輔助大模型遷移。
中國電信廣州分公司云技術總監(jiān)時瑞表示,目前各種個性化推薦算法都需要調(diào)用智算,包括人臉識別、汽車自動駕駛等各種場景。他介紹,中心目前建成算力100P,計劃兩年內(nèi)擴展到300P。海珠區(qū)相關負責人表示,該智算中心定位服務大模型,主要服務于廣州市人工智能與數(shù)字經(jīng)濟試驗區(qū)至粵港澳大灣區(qū)大模型研發(fā)運用。
寫在最后
隨著人工智能技術發(fā)展,智能算力的規(guī)模已經(jīng)超過通用算力。近年來,大模型迅猛發(fā)展,使得智能算力市場需求會越來越大,同時大模型也給智能算力提出更高要求。為了抓住大模型發(fā)展帶來的產(chǎn)業(yè)機會,各地及企業(yè)都在積極建設智算中心來支持大模型訓練部署。