第五代至強可擴展處理器架構(gòu)剖析
2023年年底發(fā)布的第五代至強,雖然和第四代至強一樣都是基于Intel 7制程打造的,并采用了Dual-poly-pitch SuperFin晶體管技術(shù),但英特爾依然在關(guān)鍵的技術(shù)指標(biāo)上做了改進(jìn),比如系統(tǒng)的漏電流控制和動態(tài)電容等。在這些改進(jìn)下,整體上第五代至強在同等功耗下的頻率可以提升3%,其中有2.5%是由漏電流控制貢獻(xiàn)的,動態(tài)電容下降貢獻(xiàn)了0.5%。
除此之外,第五代至強的多芯片封裝方式有所改變,第四代至強就是把芯片分為四個部分,這四個部分是相對對稱的。而第五代至強的切分方式則做了調(diào)整,把切四份的做法變成了切兩份。過去每兩片之間相互進(jìn)行通信時,需要有一些芯片互連之間的接口,不僅占用了額外的芯片面積,也額外增加了功耗。如今隨著芯片質(zhì)量控制得到進(jìn)一步改進(jìn),英特爾可以在相對較大的面積下依舊獲得很好的良率,所以通過將四芯片改為兩芯片的方式,芯片的面積得到了更好的控制。
此外第五代至強的處理核心升級到了Raptor Cove核心,核心數(shù)從最多的60核升級到64核。在I/O速度上,DDR速度從4800MT/s提升到了5600MT/s,UPI速度從16GT/s提升到20GT/s。而最大的升級之一當(dāng)屬LLC大小,單個模塊的LLC容量從1.875MB增加到了5MB。這樣如果處理規(guī)模較小的數(shù)據(jù)集時,甚至可以將主要數(shù)據(jù)放在LLC緩存中,從而大量減少內(nèi)存訪問,進(jìn)而大幅提高性能。這些架構(gòu)上的改進(jìn),也使其在生成式AI和LLM等AI應(yīng)用上的性能得到了提升。
通用服務(wù)器上跑AI
除了傳統(tǒng)的CPU計算核心外,英特爾也增加了AMX加速器,專門針對矩陣運算。根據(jù)測試,AI推理的性能與上一代相比提升了至多42%。針對非大模型類的AI應(yīng)用,英特爾始終致力于在CPU上部署AI,并結(jié)合其OpenVINO生態(tài)進(jìn)行優(yōu)化,比如推薦、語音識別、圖像識別等。
而面對推薦系統(tǒng),尤其是面對GPU也無法單獨處理的大模型時,CPU反而更快。因為GPU不夠用的時候,玩玩需要跨GPU計算,或者需要和CPU頻繁交互,如此一來CPU效率更高。
對于通用的AI工作負(fù)載,英特爾采用AMX和AVX-512兩個指令集,基于OpenVINO進(jìn)行優(yōu)化。在推理的過程中,指令集上可以進(jìn)行切分,通過加速器定向加速某一部分,甚至可以替代傳統(tǒng)的基于GPU的AI模型。
除此之外,還有成本上的考量,在模型調(diào)優(yōu)、推理、應(yīng)用上,使用通用服務(wù)器有非常大的性價比提升。尤其是當(dāng)企業(yè)并不需要24小時都要跑大模型,大模型只是對業(yè)務(wù)的輔助時,比如聊天機器人、或是內(nèi)容生成、提綱分析等,這些只是幫助企業(yè)業(yè)務(wù)的生產(chǎn)力提高,尤其是在私有云上,就沒有必要再重新部署一個新的GPU的平臺。因為一個新的平臺意味著需要考慮開發(fā)、運維等因素,成本有可能增加,而這對于企業(yè)來說也可能會成為負(fù)擔(dān)。
以合作伙伴舉例,比如百度云也有基于第五代至強的服務(wù)器,提供了可以在CPU上運行的大型計算模型的服務(wù);在京東基于第五代至強的應(yīng)用中可以看到,和前一代的處理器相比,在Llama2 13B的模型上,看到有50%的性能提升。所以第五代至強在AI上應(yīng)用的性能提升是比較明顯的。
再者就是編解碼上的應(yīng)用,目前主流客戶為了達(dá)到更好的圖像質(zhì)量,反而會采用CPU做編解碼。GPU在擁有硬件加速的情況下,其特點是快,但視頻編解碼質(zhì)量往往略差于CPU。通過第五代至強處理器AMX-INT8的加持,已經(jīng)把吞吐從原來的1.5FPS增強到了33FPS,基本可以滿足實時編碼的需求。
下一代至強路線圖
從路線圖上來看,2024年英特爾還會發(fā)布新一代英特爾至強可擴展處理器,而且有一個非常豐富的產(chǎn)品組合,同時滿足對性能和能耗的要求。基于現(xiàn)在的第五代至強,英特爾也會發(fā)布下一代的性能核,就是高主頻、高性能的CPU核架構(gòu),為主流和復(fù)雜的數(shù)據(jù)中心的應(yīng)用進(jìn)行性能優(yōu)化,尤其是目前有很多程序是跑在虛擬機上,之前寫的非常大的程序要跑在性能核上的,才能看到一個非常好的性能提升。
同時對新興的,尤其是基于云原生的設(shè)計,英特爾還提供基于能效核打造的至強處理器,每瓦性能可以做到相對極致,而且因為它的核心設(shè)計比較精簡,可以放更多高密度的核數(shù)到每一款的CPU和服務(wù)器,從而支持面向云的高密度超高能效的運算進(jìn)行能效的優(yōu)化。在近期對于產(chǎn)品淘汰換新的要求中,有一個重要考量因素就是能效比,這同樣也是符合國家對設(shè)備淘汰換新的要求。