一夜爆火的Sora:大模型再升級(jí),解鎖新玩法?
進(jìn)入到2024年后,AI大模型的熱度沒有絲毫下滑跡象,反倒愈發(fā)火熱。2月16日,OpenAI發(fā)布了文生視頻工具Sora,成功復(fù)制了又一個(gè)ChatGPT時(shí)刻,震撼了科技產(chǎn)業(yè),引爆社交平臺(tái)熱議。根據(jù)OpenAI官網(wǎng)的介紹,Sora是一個(gè)通用的視覺數(shù)據(jù)模型,生成的視頻可包含復(fù)雜的角色、特定的移動(dòng)類型,以及主體和背景細(xì)節(jié)。
本文引用地址:http://cafeforensic.com/article/202402/455626.htmSora到底是什么?
目前,Sora能夠根據(jù)用戶輸入的提示詞、文本指令或靜態(tài)圖像,生成長(zhǎng)達(dá)60s的視頻,遠(yuǎn)超此前Runway(18秒)、Pika(起步3秒+增加4秒)、Stable Video Diffusion(4秒)等AI視頻應(yīng)用生成時(shí)長(zhǎng),在視頻效果及穩(wěn)定性等指標(biāo)上表現(xiàn)也更加優(yōu)異。
Sora呈現(xiàn)良好的多模態(tài)能力,不僅支持文本生成視頻,還具備圖像生成視頻等能力,另外視頻可以往前/向后擴(kuò)展,如果你對(duì)視頻的局部(比如背景)不滿意,也可以直接更換。雖然Sora尚未對(duì)公眾開放,從已經(jīng)公布的生成的視頻案例來(lái)看,其中既能實(shí)現(xiàn)多角度鏡頭的自然切換,還包含復(fù)雜的場(chǎng)景和生動(dòng)的角色表情,且故事的邏輯性和連貫性極佳。
Sora具有三大突出亮點(diǎn):一是60秒長(zhǎng)視頻,可以保持視頻主體與背景的高度流暢性與穩(wěn)定性;二是在一個(gè)視頻內(nèi)實(shí)現(xiàn)多角度鏡頭,分鏡切換符合邏輯且十分流暢;三是理解真實(shí)世界的能力,對(duì)于光影反射、運(yùn)動(dòng)方式、鏡頭移動(dòng)等細(xì)節(jié)處理得十分優(yōu)秀,極大地提升了真實(shí)感。
除了是視頻生成工具,「世界模擬器」也是Sora的重要標(biāo)簽,畢竟Sora技術(shù)報(bào)告的標(biāo)題就是“作為世界模擬器的視覺生成模型”。OpenAI在關(guān)于Sora的詳細(xì)技術(shù)報(bào)告中表示,Sora對(duì)自然語(yǔ)言的理解能力很強(qiáng)。OpenAI將其視為能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),相信其能力是實(shí)現(xiàn)AGI的重要里程碑。
AGI即Artificial General Intelligence,又稱通用人工智能,是指能夠完全模仿人類情感、行為,實(shí)現(xiàn)自我學(xué)習(xí)、自我改進(jìn)、自我修正的智能計(jì)算機(jī)系統(tǒng)。AGI最大的特點(diǎn)在于對(duì)真實(shí)世界的規(guī)則,尤其是物理狀態(tài)、自然規(guī)律、化學(xué)變化等等因素的反饋。盡管Sora當(dāng)前只展示了其在視頻,又或是內(nèi)容創(chuàng)作上的能力,但其對(duì)于真實(shí)世界的理解已經(jīng)展現(xiàn)出強(qiáng)悍的實(shí)力。
AI視頻生成的難點(diǎn)在于視頻是連續(xù)的多幀圖像,并且要有邏輯性,并非簡(jiǎn)單的圖片組合。Sora令人驚嘆的地方是在于其生成的視頻是通過(guò)程序架構(gòu)、通過(guò)不斷地訓(xùn)練而來(lái)的:據(jù)OpenAI科學(xué)家提姆·布魯克斯透露,沒通過(guò)人類預(yù)先設(shè)定,Sora就自己通過(guò)“觀察”大量數(shù)據(jù),自然而然地學(xué)會(huì)了關(guān)于3D幾何形狀和一致性的知識(shí),其生成的虛擬視頻是符合現(xiàn)實(shí)世界物理規(guī)律的。
盡管Sora距離世界模型還有很長(zhǎng)距離,并不意味著它已經(jīng)‘讀懂’了物理規(guī)律,究竟是模型建立了真實(shí)世界的法則,還是解碼能力強(qiáng)大?不過(guò)肯定的是它證明了一點(diǎn),即機(jī)器可以通過(guò)“投喂數(shù)據(jù)”推算出一些物理世界的規(guī)則。毫無(wú)疑問(wèn),Sora是機(jī)器模擬現(xiàn)實(shí)世界的一個(gè)里程碑。
Sora模型的技術(shù)路線
從ChatGPT到Sora,反映了大模型真實(shí)理解、反映和模擬物理世界的巨大能力,也讓我們看到了這種巨大的可能性。OpenAI官網(wǎng)公布的Sora大模型技術(shù)報(bào)告顯示,Sora的核心技術(shù)是Diffusion Transformer架構(gòu),基于該構(gòu)架從一開始看似靜態(tài)噪聲的視頻出發(fā),經(jīng)過(guò)多步驟的噪聲去除過(guò)程,逐漸生成視頻。
2022年,Diffusion Transformer架構(gòu)由Sora模型的主要作者Bill Peebles提出,他將Transformer結(jié)構(gòu)替代了Diffusion模型中常用的U-Net結(jié)構(gòu);同時(shí),受到訓(xùn)練大語(yǔ)言模型的Token(文本單元)啟發(fā),引入了Patch(視覺塊嵌入代碼)的概念,它能對(duì)像素、尺寸等各不相同的視頻進(jìn)行編碼,提升了原來(lái)Diffusion模型在深度和寬度上的可擴(kuò)展性,為視頻模型增加輸出時(shí)長(zhǎng)奠定了基礎(chǔ)。
從技術(shù)路線來(lái)看,Diffusion架構(gòu)是用于文生視頻的標(biāo)準(zhǔn)算法框架,已在業(yè)內(nèi)達(dá)成共識(shí)。Sora“驚艷”之處在于為圖像視頻等多模態(tài)數(shù)據(jù)找到了適合Transformer架構(gòu)的表征方式,從而將ScalingLaw從語(yǔ)言模型復(fù)制到了圖像視頻模型。此外,Sora能更好地理解用戶給的提示詞,借助DALL·E3的re-captioning功能,給訓(xùn)練用的視頻素材都加上了高質(zhì)量文本描述,在推理時(shí)借助了GPT對(duì)用戶輸入進(jìn)行擴(kuò)展,可謂“站在巨人肩膀上”更進(jìn)一步。
盡管OpenAI在Sora的技術(shù)文檔中并未公開所有模型細(xì)節(jié),但我們可以通過(guò)其描述大致推測(cè)出,Sora的實(shí)現(xiàn)仍然依賴于OpenAI在大語(yǔ)言模型領(lǐng)域取得巨大成功的“大力出奇跡”思想,即通過(guò)大幅提升訓(xùn)練數(shù)據(jù)和參數(shù)規(guī)模實(shí)現(xiàn)視頻精度和對(duì)現(xiàn)實(shí)世界物理關(guān)系的“涌現(xiàn)”。
Sora面臨的問(wèn)題
Sora模型目前還處于測(cè)試階段,預(yù)計(jì)再經(jīng)過(guò)一段時(shí)間的安全測(cè)試和用戶反饋后才會(huì)正式提供服務(wù),因此還無(wú)法了解Sora模型的實(shí)際效果。不過(guò),OpenAI沒有刻意回避Sora模型生成錯(cuò)誤內(nèi)容的情況。在OpenAI發(fā)布的技術(shù)報(bào)告中有一段Sora模型生成的錯(cuò)誤視頻,展示了桌上的水杯會(huì)先從底部流出果汁,然后沿著錯(cuò)誤的方向和角度倒在桌上。
值得注意的是,Sora代表的AGI“世界模擬器”要運(yùn)轉(zhuǎn),離不開算力基礎(chǔ)設(shè)施。每一個(gè)深度學(xué)習(xí)的人工智能模型,都離不開背后強(qiáng)大算力的支持,Sora亦是如此。OpenAI CEO Altman曾公開表示,其工作與產(chǎn)品仍需更多算力提供幫助,目前公司所使用的還遠(yuǎn)遠(yuǎn)不夠。
而視頻生成推理需要更大的VRAM或帶寬,如果Sora開放使用后如期推動(dòng)各類視頻創(chuàng)作的繁榮,當(dāng)前電信和數(shù)通網(wǎng)絡(luò)的帶寬都需要大幅升級(jí)。作為廣義算力的一部分,網(wǎng)絡(luò)設(shè)備的需求也將爆發(fā)式增長(zhǎng)。
AI技術(shù)的復(fù)雜性意味著需要大量金錢和算力資源投入。據(jù)媒體報(bào)道,OpenAI首席執(zhí)行官山姆·奧特曼正與投資者洽談,籌集資金用于研發(fā),具體數(shù)目可能高達(dá)5萬(wàn)億至7萬(wàn)億美元。目前,OpenAI已展開自有芯片布局,路透社就曾報(bào)道OpenAI已經(jīng)參與投資至少三家半導(dǎo)體設(shè)計(jì)公司,其中Cerebras更是一家初創(chuàng)型企業(yè)。
當(dāng)然,我們也不能忽視Sora潛在的問(wèn)題和風(fēng)險(xiǎn)。一方面,“文生視頻”模型需要海量的訓(xùn)練數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí),這就會(huì)帶來(lái)版權(quán)問(wèn)題;另一方面,和所有其他人工智能工具一樣,Sora過(guò)于逼真的視頻表現(xiàn)也會(huì)帶來(lái)對(duì)于偽造和傳播虛假內(nèi)容的憂慮。如何在未來(lái)的實(shí)踐中保證數(shù)據(jù)安全、規(guī)避風(fēng)險(xiǎn),確實(shí)值得關(guān)注。
針對(duì)業(yè)界的擔(dān)憂,美國(guó)聯(lián)邦貿(mào)易委員會(huì)(FTC)2月15日提出了禁止使用AI工具冒充個(gè)人的規(guī)則。FTC表示,它正在提議修改一項(xiàng)已經(jīng)禁止冒充企業(yè)或政府機(jī)構(gòu)的規(guī)則,將保護(hù)范圍擴(kuò)大到所有個(gè)人。OpenAI內(nèi)部仍在開展模型倫理側(cè)的對(duì)抗性測(cè)試,比如錯(cuò)誤信息、仇恨內(nèi)容、偏見內(nèi)容、色情暴力內(nèi)容等,會(huì)在文本輸入時(shí)被拒絕。
新生事物的發(fā)展過(guò)程難免會(huì)遭遇波折、迂回,但不會(huì)停下前行的腳步。近兩年,由于人工智能技術(shù)的迅猛發(fā)展,世界各國(guó)以及許多知名企業(yè)不約而同地加大了對(duì)相關(guān)產(chǎn)業(yè)的投入。據(jù)估計(jì),2026年全球生成式人工智能的市場(chǎng)規(guī)模將到981億美元,無(wú)論是對(duì)Sora還是對(duì)其他人工智能工具來(lái)說(shuō),未來(lái)都可能給人類世界帶來(lái)更多驚喜和顛覆性的變革。
OpenAI迫不及待地推出仍在開發(fā)中的不完美模型,更像是用一出大型廣告秀吸引更多融資的高招。因此,現(xiàn)階段不必過(guò)于高估“文生視頻”模型為行業(yè)以及世界帶來(lái)的影響。Sora作為生成式AI模型的一顆“新星”,仍存在一些不成熟之處,比如邏輯性還有待提升,在更精細(xì)內(nèi)容的調(diào)控方面有待加強(qiáng)。但它的出現(xiàn),已經(jīng)給大眾帶來(lái)了一定的想象空間。
技術(shù)浪潮下的文化產(chǎn)業(yè),重塑與變革必然勢(shì)不可當(dāng),正如蒸汽機(jī)、發(fā)電機(jī)等機(jī)器工具的發(fā)明和普及,讓手工勞動(dòng)被自動(dòng)化機(jī)器代替。生成式AI所蘊(yùn)含的深層次、革命性力量是不容低估的,與其揣著“飯碗焦慮”,我們不如將之視為工作的“搭子”。換言之,無(wú)論是ChatGPT還是Sora,技術(shù)進(jìn)步更重要的意義在于讓更多人可以不被簡(jiǎn)單重復(fù)的勞動(dòng)所束縛,與AI成為工作“搭子”,從而去創(chuàng)造更大價(jià)值。
評(píng)論