過去一年多,全球科技公司都在發(fā)布各種大模型,然而AI生成內(nèi)容更多集中在文本和圖片方面,AI視頻生成方面卻進(jìn)展緩慢。從當(dāng)前的形勢來看,AI視頻生成在今年或許會有一番新景象。那么目前國內(nèi)外都有哪些AI視頻生成工具,效果如何呢?
Sora
OpenAI發(fā)布的新型視頻生成模型Sora,其核心能力是能夠生成長達(dá)一分鐘的高清視頻,這一時長遠(yuǎn)超之前的生成模型。而且,Sora生成的視頻不僅畫質(zhì)卓越,細(xì)節(jié)豐富,而且?guī)矢?、連續(xù)性好,幾乎達(dá)到了無縫銜接的效果。
從OpenAI官網(wǎng)展示的一個視頻來看,輸入提示詞“一位時尚女士走在東京的街道上,街道上充滿了溫暖的霓虹燈和動畫城市標(biāo)志。她穿著黑色皮夾克、紅色長裙和黑色靴子,拿著一個黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信而隨意。街道潮濕且反光,形成了五顏六色燈光的鏡面效果。許多行人四處走動?!?/p>
生成的視頻,無論是運(yùn)鏡還是人物、地面、背景的細(xì)節(jié),還有拉進(jìn)鏡頭后人物面部上的皺紋、毛發(fā)、墨鏡上的反光,都幾乎可以以假亂真,畫面穩(wěn)定不錯位。在長達(dá)60秒的視頻里,畫面隨鏡頭的大幅度運(yùn)動并沒有出現(xiàn)錯位的情況,整體風(fēng)格保持了驚人的一致性。
據(jù)IDC中國預(yù)測,Sora將率先在短視頻、廣告、互動娛樂、影視制作和媒體等行業(yè)中得到應(yīng)用。在這些領(lǐng)域,利用Sora的多模態(tài)大模型能力,可以輔助內(nèi)容行業(yè)的工作者更高效地創(chuàng)作視頻,不僅加快了生產(chǎn)速度,還提高了產(chǎn)出數(shù)量,并為用戶帶來前所未有的視覺體驗。這將助力企業(yè)實現(xiàn)成本降低、效率提升,并進(jìn)一步優(yōu)化用戶體驗。
Pika 1.0
在OpenAI發(fā)布視頻生成模型Sora之前,去年11月29日,美國AI初創(chuàng)公司Pika labs發(fā)布的文生視頻產(chǎn)品Pika 1.0呈現(xiàn)的效果在當(dāng)時也相當(dāng)驚艷。Pika labs是一家成立于去年4月份的初創(chuàng)公司,創(chuàng)始人郭文景和聯(lián)合創(chuàng)始人兼CTO Chenlin Meng,都是斯坦福大學(xué)AI Lab博士生。一位專注于NLP(自然語言處理)和圖形學(xué),另一位主攻計算機(jī)視覺方向。
據(jù)介紹,該公司推出的視頻生成模型Pika 1.0能夠生成和編輯3D動畫、動漫、卡通和電影。視頻生成方面,可以通過文字生成視頻,也可以圖片生成視頻。比如,只需輸入提示詞“馬斯克穿著太空服,3D動畫”,一個動畫版本、穿著太空服準(zhǔn)備乘坐火箭上太空的馬斯克即可生成,外形、動作、背景等元素均十分逼真,可以媲美花大成本制作的3D動畫影像。
Pika 1.0還可以通過原有視頻生成更高質(zhì)量的視頻。該公司當(dāng)時展示了一個騎馬的黑白原視頻,通過Pika 1.0生成了物種不同風(fēng)格的動畫,幾乎涵蓋現(xiàn)有電影和動畫大部分風(fēng)格,看上去質(zhì)量效果非常好。除了視頻生成,Pika 1.0還能夠進(jìn)行視頻編輯,用戶只需要選定編輯區(qū)域,就能根據(jù)文本提示詞修改特定區(qū)域。
在當(dāng)時來看,Pika 1.0的出現(xiàn)可以說效果好于之前的文生視頻模型。然而隨著現(xiàn)在Sora的出現(xiàn),Pika或許會感覺到壓力。Pika公司創(chuàng)始人郭文景表示,“我們覺得這是一個很振奮人心的消息,我們已經(jīng)在籌備升級中,將直接對標(biāo) Sora?!?/p>