谷歌加入AI模型開源陣營,Gemma橫空出世
根據(jù)谷歌的介紹,Gemma是由谷歌DeepMind以及其他團(tuán)隊(duì)開發(fā),由Gemini啟發(fā)并采用了相同的研究與技術(shù)的輕量級模型。與之一起發(fā)布的還有全新的響應(yīng)式生成AI工具包,為利用Gemma創(chuàng)造更安全的AI應(yīng)用提供關(guān)鍵工具和指導(dǎo)。
從參數(shù)大小上來看,Gemma分為20億參數(shù)(Gemma 2B)和70億(Gemma 7B)參數(shù)兩個版本,且每個版本又有基礎(chǔ)版(預(yù)訓(xùn)練)和指令調(diào)整版兩個變體。其中70億參數(shù)的版本適合消費(fèi)級的GPU和TPU開發(fā),而20億參數(shù)的版本可以用于CPU和端側(cè)應(yīng)用上。
在預(yù)訓(xùn)練數(shù)據(jù)上,Gemma 2B和7B分別采用了2T和6T的Token進(jìn)行訓(xùn)練,數(shù)據(jù)來源是以英文為主的網(wǎng)絡(luò)文檔、數(shù)學(xué)計(jì)算和代碼。需要注意的是,盡管其背后所采用的技術(shù)與Gemini類似,但這些模型并不屬于多模態(tài)模型,也并不適合用于追求極致的多語言任務(wù)性能。
在訓(xùn)練硬件上,谷歌采用了自研的TPUv5e,其中Gemma 7B用到了4096塊TPUv5e進(jìn)行訓(xùn)練,Gemma 2B用到了512塊TPUv5e進(jìn)行訓(xùn)練。
開源LLM混戰(zhàn),Gemma 7B超越Llama-2 13B?
根據(jù)谷歌官方提供的數(shù)據(jù),與Meta的Llama-2相比,Gemma 7B在多個項(xiàng)目上展現(xiàn)出了優(yōu)勢,比如大規(guī)模多任務(wù)語言理解(MMLU)、GSM8K和Math計(jì)算和HumanEval Python代碼生成等應(yīng)用上,都超過了Llama-2 7B,甚至不少超過了Llama-2 13B。