有了英偉達供應的前提下為何要走向自研之路
稍有關(guān)注OpenAI動向的話,想必也對2023年底OpenAI鬧出的離職風波有所耳聞。據(jù)外網(wǎng)報道,在OpenAI鬧劇期間,Sam Altman已經(jīng)在秘密籌劃一項數(shù)十億美元的芯片項目(據(jù)稱項目名為Tigris)。甚至其去年的中東之行,就是為了給這一項目籌集資金。
在各大公司都選擇批量掃貨的前提下,去年用于AI服務器的英偉達GPU處于一個極度缺貨的狀態(tài),比如Meta就在月初宣布計劃再購買35萬塊英偉達的H100 GPU。就連為OpenAI提供服務器的微軟,也面臨著擴大AI服務器規(guī)模的困難。為此微軟也在加快內(nèi)部AI芯片的研發(fā)進程,但微軟的這一芯片必然不是單純?yōu)榱薕penAI打造的,而是面向所有Azure的客戶。
更別說OpenAI面臨著超高的運維成本,網(wǎng)傳OpenAI每天的服務器運維費用高達70萬美元。
在如此高昂的服務器硬件與運維成本下,OpenAI也開展了相關(guān)的訂閱收費模式ChatGPT Plus,費用為20美元每月。
但據(jù)統(tǒng)計,去年10月份ChatGPT Plus的訂閱用戶只有20多萬,這樣的用戶規(guī)模根本沒法覆蓋運維支出。更何況因為硬件資源的限制,OpenAI一直在限制ChatGPT Plus的訂閱用戶規(guī)模,以免出現(xiàn)服務器負載過高的情況。
為此,OpenAI要想進一步降本增效,并保證下一代GPT模型能有足夠的算力支撐,走上自研這條路倒也情有可原。由OpenAI自研的芯片,自然會專為GPT模型作針對性的優(yōu)化,也有利于未來的模型與硬件迭代。
從資金、設(shè)計到制造,OpenAI尋求外援
然而自研造芯不僅需要組建一個設(shè)計團隊,也需要半導體制造廠商的支持,更別說打造高性能AI芯片的資金了。據(jù)了解,阿布扎比的G42和日本的軟銀已經(jīng)與Sam Altman展開合作交談,這些投資者將為OpenAI提供足夠的資金來打造一個AI芯片的制造網(wǎng)絡(luò)。
據(jù)傳這一投資也拉到了臺積電的合作,后者將為其提供芯片的支持。要知道目前用于AI芯片的CoWoS先進封裝產(chǎn)能可是炙手可熱,即便臺積電在積極擴產(chǎn),但在源源不斷的制造訂單下,可能仍然難以滿足云服務廠商和互聯(lián)網(wǎng)廠商們的AI芯片需求。
再者就是HBM的產(chǎn)能,除了算力對邏輯芯片提出的高要求外,AI應用所需的高帶寬也對存儲芯片提出了不少的要求,甚至在近年推出的一大批AI芯片中,HBM內(nèi)存已經(jīng)成了標配??蒆BM有限的制造廠商們卻面臨著產(chǎn)能緊缺的問題,比如SK海力士就透露其2024年的HBM3和HBM3E產(chǎn)能已經(jīng)全部售罄,甚至已經(jīng)在和客戶商討2025年的訂單。
其實早在去年6月,Sam Altman就曾訪問韓國,并與韓國總統(tǒng)尹錫悅會面,并提議韓國應該多多關(guān)注芯片產(chǎn)能問題。上周,Sam Altman再度訪韓,據(jù)悉其參觀了三星電子的半導體產(chǎn)線,并會見了三星的芯片業(yè)務負責人,這之后又與SK海力士的CEO進行了會談。此行的目的已經(jīng)很明顯了,這兩大HBM廠商都已經(jīng)打入了英偉達的AI芯片HBM內(nèi)存供應鏈中,尤其是SK海力士。
OpenAI要想自研AI芯片,勢必用上最新的HBM內(nèi)存,那么與存儲廠商直接預訂產(chǎn)能是最好的選擇。這也是自研AI芯片面臨的難處之一,英偉達這類已經(jīng)有大量訂單和多年設(shè)計經(jīng)驗的廠商,在晶圓代工廠往往有著更大的話語權(quán),能夠搶占到更大的產(chǎn)能。如果OpenAI能夠拋出大批量的訂單的話,或許可以說動臺積電、三星和SK海力士等廠商為其騰出額外的產(chǎn)能。
自研的其他捷徑
對于OpenAI來說,自研AI芯片固然存在著很多阻礙,但在這個設(shè)計路線已經(jīng)與過去大不相同的時期,也有不少捷徑可走,比如Chiplet技術(shù)。谷歌TPU項目的負責人之一Richard Ho從去年11月起,已被OpenAI聘請為硬件部門的負責人。但從其公開招募的職位來看,OpenAI還沒有大規(guī)模組建硬件設(shè)計團隊。
即便如此,OpenAI依然有著縮短芯片設(shè)計周期的手段,那就是通過Chiplet技術(shù),降低設(shè)計芯片的工程量。其自研的部門只需要涵蓋芯片的邏輯計算部分,其余的I/O等模塊,均可以靠第三方IP打造的Chiplet進行實現(xiàn)。
如此一來不僅可以充分利用異構(gòu)集成的高性價比,也可以通過重復利用IP來避免反復造輪子的情況,也更容易實現(xiàn)芯片的迭代,不需要組建一整個大型硬件設(shè)計團隊,從而將更多精力放在計算核心的設(shè)計,以及與軟硬件的聯(lián)調(diào)上。更重要的是KGD的優(yōu)勢保證了Chiplet的良率,也就直接提高最終AI芯片成品的良率,對于新晉芯片設(shè)計廠商而言,這能有效地降低制造分享。
寫在最后
從OpenAI或?qū)⒆匝行酒膭酉蚧騻餮詠砜矗珹I的框架和應用走向成熟和爆紅,僅僅只是實現(xiàn)成功的第一步。要想實現(xiàn)可持續(xù)的商業(yè)化落地,還是少不了硬件的支撐,尤其是與模型契合的AI芯片。所以只要是可以負擔得起大投入和高風險的AI公司,都會考慮自研專用AI芯片。
同時,我們也可以看出OpenAI的野心確實不小,不少AI模型/應用開發(fā)商并沒有這個魄力去選擇自研的道路,因為絕大多數(shù)競爭對手的運營方式還是靠服務器托管,以訂閱制或Token數(shù)來進行收費,其用戶量也還沒達到云服務廠商難以維系的程度。而OpenAI憑借ChatGPT成為落地AI應用的領(lǐng)頭羊,甚至不少云服務廠商親自下場也沒能實現(xiàn)ChatGPT的熱度?;蛟S對于OpenAI而言,自研芯片固然風險極高,卻依然是推動公司進入下一階段的最優(yōu)解。