色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

新聞中心

EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 從素材引領(lǐng)大模型(如Sora等)生成視頻

從素材引領(lǐng)大模型(如Sora等)生成視頻

作者：高煥堂時(shí)間：2024-09-29 來源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

本文引用地址：http://cafeforensic.com/article/202409/463354.htm

1 前言

無論是大語言模型(LLM) 或是大視覺模型(LVM)等，大多是從廣闊的互聯(lián)網(wǎng)大數(shù)據(jù)中學(xué)習(xí)，就俗稱為：野貓或強(qiáng)龍。而一般的企業(yè)小模型則局限于企業(yè)內(nèi)部的數(shù)據(jù)中學(xué)習(xí)，則俗稱為：家貓或地頭蛇。那么，本期就來展示一項(xiàng)家貓與野貓的協(xié)同合作，一同創(chuàng)造更令人驚訝的新視頻(Video。例如，這是Open AI 公司的Sora生成的視頻：

經(jīng)由我的家貓( 一個(gè)GAN 模型)，改變其色彩，并與野貓（PixVerse）協(xié)同合作。這種家貓與野貓的協(xié)同合作，常常創(chuàng)造出無奇不有的AI 生成影視。例如，協(xié)同合作生成如下：

有時(shí)候，野貓可能聽不準(zhǔn)人話(Prompts)，就可以好好利用家貓去和野貓輕聲細(xì)語，野貓就變得細(xì)致精準(zhǔn)了。這項(xiàng)協(xié)同合作模式，也很適合于許多影視企業(yè)的IP(Intellectual Property) 增值之路。其中，IP 的價(jià)值在于一致的獨(dú)創(chuàng)風(fēng)格，而IP 的增值則在于既能維持一致風(fēng)格，又能添加各種組合性創(chuàng)新。自從2020 年以來，AI 的組合性創(chuàng)作能力愈來愈高，使得企業(yè)IP 增值途徑的成本大幅降低，只需更專注于維護(hù)一致的獨(dú)有風(fēng)格。

為了維護(hù)風(fēng)格，就來尋覓一條< 引領(lǐng)AI 生成> 的有效途徑。就如同烹飪，其最佳的控制手段，即是：掌握素材( 食材)。例如，利用自己訓(xùn)練的家貓來對素材來進(jìn)行處理，力求維持其一致風(fēng)格，然后將處理后的素材和人為的提詞(Prompt) 結(jié)合，來引導(dǎo)AI 生成新視頻，于是基于IP 的創(chuàng)作就完成了。

2 認(rèn)識LVM：以Sora為例

目前有許多大視覺模型(Large Vision Model，簡稱：LVM)，其中最具盛名的是Open AI 公司的Sora 模型，此外還有PixVerse、Pika 等等。Sora 的主要魅力是，讓人們可以輕松、流暢地制作出引人入勝的視頻，這為影

視方面的創(chuàng)作開啟了一條風(fēng)光明媚的新道路。它在ChatGPT 的基礎(chǔ)上，既能用LLM 來理解用戶的提詞(Prompt) 的心意，并產(chǎn)生引人注目的字符來表達(dá)充滿活力的情感。然后基於這些元素在物理世界中的存在方式，來實(shí)現(xiàn)物理世界的涌現(xiàn)情境。

此圖引自：https://aineedful.com/sora-ai-text-tovideo-generator-tool/

除了透過文字來生成影片之外，在圖像方面，Sora能夠產(chǎn)生具有多個(gè)角色、特定類型的運(yùn)動(dòng)以及主體和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場景。因而Sora可以將系列圖像轉(zhuǎn)換為影片，并能為靜態(tài)圖像添加各種動(dòng)畫效果，來產(chǎn)生動(dòng)態(tài)視角影片，使其人物及場景元素在旋轉(zhuǎn)的3D 空間里能保持流暢的運(yùn)動(dòng)狀態(tài)。

由于它能充分理解人們在提詞文本里所說的各種事物，并知道這些物體是如何存在于現(xiàn)實(shí)世界之中，進(jìn)而創(chuàng)造出讓人驚艷的逼真感受，呈現(xiàn)出其非常棒的真實(shí)感。

此圖引自：https://openai.com/index/sora/

Sora 從文字推論出所蘊(yùn)含的豐富情感和細(xì)膩想象力，再通過視覺敘事的方式生動(dòng)地展現(xiàn)出來，讓人人的想法不受限于語言的邊界，而進(jìn)入到視覺藝術(shù)的逼真情境。從上述可知，Sora 具有兩項(xiàng)很顯著的特色：

2.1 對語言深入理解

Sora 利用LLM 來理解和生成與物理世界相關(guān)的語言描述。于是它對語言具有深入理解，并準(zhǔn)確的詮釋和呈現(xiàn)語言的意圖，它不僅了解人們在提示詞所說的各種物體，還知道這些物體是如何存在于現(xiàn)實(shí)世界中，因而讓人們可以輕松、流暢地制作出引人入勝的視頻

2.2 生成逼真的視頻

Sora 擅長於處理時(shí)間和空間相關(guān)的資料，來掌握復(fù)雜的時(shí)空關(guān)系，因而展現(xiàn)了生成高度真實(shí)物理世界視頻的能力。因而能夠模擬出一些來自現(xiàn)實(shí)世界中人、動(dòng)物、環(huán)境和其他事物，藉由充分理解周圍的世界，來生成非常吸引人的逼真影片。

3 LVM的典型用法：以PixVerse為例

您可以使用PixVerse 來生成逼真且具個(gè)人獨(dú)特風(fēng)格的影片。并且為你的影片提升豐富度、增加內(nèi)涵和特效，且保持視覺風(fēng)格的一致性。還可以將靜態(tài)的系列圖片轉(zhuǎn)換成為完整的影片。

當(dāng)你需要 PixVerse 幫你創(chuàng)造出超棒的影片時(shí)，請您輸入你希望轉(zhuǎn)換為影片的文本，然后將其輸入到 PixVerse 的接口中，它將根據(jù)你的文本生成影片。PixVerse 的典型用法包含4 個(gè)步驟，如下：

3.1 用戶輸入文本描述

使用者提供提詞文本(Text) 給 PixVerse ，成為影片生成的起點(diǎn)，提詞包括故事情節(jié)和對話內(nèi)容，以及相關(guān)的文本敘述。

3.2 PixVerse理解文本描述

接著，PixVerse 藉由LLM來準(zhǔn)確地解釋文本和意圖，領(lǐng)會出人們的想法、主題、人物、環(huán)境和動(dòng)作，來產(chǎn)生充滿活力情感的視頻。

3.3 PixVerse將文本轉(zhuǎn)換為一系列圖像

此時(shí)，PixVerse 根據(jù)其對文本描述的理解和領(lǐng)會，來產(chǎn)生一系列圖像，并生成流暢的視覺元素，包括場景、人物、物體、環(huán)境和背景等。然后將所生成的隱藏空間元素映像到人們可觀測的像素空間。

3.4 PixVerse將圖像序列轉(zhuǎn)換為影片

最后，就會生成配音、音效和背景音樂，讓影片更豐富、更呈現(xiàn)出感情，并調(diào)整視頻的色彩和亮度，以便讓視頻更和諧流暢。同時(shí)，進(jìn)行動(dòng)畫處理，增添生動(dòng)感，然后PixVerse 就將視覺和音效元素結(jié)合生成連貫而流暢的創(chuàng)新影片了。

4 創(chuàng)新模式：家貓與野貓協(xié)同合作

現(xiàn)在就來動(dòng)手訓(xùn)練一個(gè)自己的GAN(Generative Adversarial Network) 模型，其擔(dān)任家貓( 地頭蛇) 的角色。而PixVerse 大模型則扮演野貓( 強(qiáng)龍) 的角色，兩者攜手合作。于是，就貓丁興旺，萬事如意了。

在本范例里，家貓的任務(wù)是：保留素材的底稿，渲染不同顏色。其目的是維持IP 的一致風(fēng)格( 如線條)。于是，采取GAN 模型，并使用CIELAB 色彩空間（即L*ab）來進(jìn)行訓(xùn)練。于是，這GAN 模型在幫忙處理素材時(shí)，就會保留素材的底稿，并依據(jù)其所學(xué)習(xí)的色彩風(fēng)格來對素材進(jìn)行渲染，而改變素材的顏色。

一旦訓(xùn)練好了家貓，它就能夠負(fù)責(zé)處理素材的工作。一旦素材處理好了，就能把素材輸入給野貓來生成流暢而逼真的視頻了。這項(xiàng)創(chuàng)新模式的步驟如下：

4.1 準(zhǔn)備家貓的訓(xùn)練數(shù)據(jù)

首先準(zhǔn)備訓(xùn)練數(shù)據(jù)來讓家貓( 即GAN) 模型學(xué)習(xí)。例如建立一個(gè)/ox_dd/mp4/ 活頁夾，內(nèi)含一個(gè)swd.mp4短視頻：

接下來，使用網(wǎng)絡(luò)上的工具，將swd.mp4 影片里切分出一序列的圖像(frames 或images)，并且把這些圖像存放在/ox_dd/swd_frames/ 里。每一張都是128×128格式的*.png 圖像。總共準(zhǔn)備好了60 張圖像( 或稱frames)，如下：

于是，就可以拿它們來訓(xùn)練這個(gè)家貓了。家貓就學(xué)習(xí)了這些訓(xùn)練數(shù)據(jù)中的色彩風(fēng)格，但維持既有的底圖線條不變。

4.2 開始訓(xùn)練家貓

此時(shí)，就可以拿上述的60 張圖像來訓(xùn)練家貓。訓(xùn)練100 回合完成時(shí)，也匯出GAN_G_100.pt 檔案。

4.3 由家貓來處理素材

1）收集素材

本范例擷取Sora 生成的經(jīng)典影片，儲存為sora_dance.mp4，如下：

接下來，使用網(wǎng)絡(luò)上的工具，將這sora_dance.mp4視頻切分出一序列的圖像(frames)，并且把這些圖像存放在/ox_dd/image_seq/ 里。每一張都是128×128 格式的*.png 圖像?？偣睬蟹殖?5 張圖像(frames)，如下：

這就把素材收集好了。但并不是直接把它們輸入給野貓，而是先由家貓來進(jìn)行< 素材預(yù)處理>，然后才輸入給野貓。

2）家貓開始處理素材

此時(shí)，就加載家貓模型( 即GAN_G_100.pt 檔案)，并讀取素材( 在/image_seq/ 里)，進(jìn)行預(yù)處理( 色彩轉(zhuǎn)換)。然后將轉(zhuǎn)換出來的新素材，儲存于這個(gè)/gen_seq/新活頁夾里。于是轉(zhuǎn)換出25 個(gè)素材圖像了，如下：

這就把素材預(yù)處理完成了。

4.4 把素材喂給野貓，由野貓生成新視頻

剛才已經(jīng)由家貓來進(jìn)行< 素材預(yù)處理> 好了。并且儲存于這個(gè)/gen_seq/ 新活頁夾里。接下來，就可以輸入給野貓( 即強(qiáng)龍)。本范例的野貓是著名的PixVerseAI 影片生成軟件，其網(wǎng)址是：https://app.pixverse.ai/create/video/image。

進(jìn)入這個(gè)網(wǎng)頁之后，請點(diǎn)擊<Upload image>，然后把/gen_ seq/ 里的25 個(gè)images 拉進(jìn)畫面里，并按下<Create Video>，就開始生成新視頻了?？梢渣c(diǎn)擊它，播放如下：

這就順利生成新視頻了。

5 結(jié)束語

本文展示企業(yè)AI 模型( 家貓) 在影視和游戲產(chǎn)業(yè)中的應(yīng)用，它能與大模型( 野貓) 協(xié)同合作，來生成高度逼真的視覺內(nèi)容，有效地提升了影視作品和游戲的真實(shí)感和沉浸感。此外，也有助于降低傳統(tǒng)視覺效果制作的成本和時(shí)間，并支持創(chuàng)新的內(nèi)容創(chuàng)作。例如，家貓與野貓攜手合作來讓企業(yè)影視IP 大大增值。

（本文來源于《EEPW》202409）

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 202409 大模型 生成視頻

評論

相關(guān)推薦

Andes晶心科技：對質(zhì)量的講究、對服務(wù)的重視以及對客戶的全面支持

EDA/PCB 202409 Andes 晶心科技 | 2024-09-28

人形機(jī)器人企業(yè)：該如何凸顯優(yōu)勢，又能協(xié)同合作

機(jī)器人 202409 人形機(jī)器人 | 2024-09-30

專題：“2024世界機(jī)器人大會”圓桌論壇

機(jī)器人 202409 人形機(jī)器人 | 2024-09-29

聆思CSK6大模型語音控制風(fēng)扇（上）

資源下載人工智能大模型 | 2024-08-09

芯原：為客戶提供平臺化、全方位、一站式芯片定制和IP授權(quán)服務(wù)

模擬技術(shù) 202409 | 2024-09-29

Imagination：精心定制IP以滿足各個(gè)領(lǐng)域客戶的不同需求

EDA/PCB 202409 Imagination | 2024-09-28

人形機(jī)器人：實(shí)現(xiàn)批量應(yīng)用的瓶頸技術(shù)是什么

機(jī)器人 202409 人形機(jī)器人 | 2024-09-30

AI大模型時(shí)代的邊云協(xié)同之EdgeXFoundry

nakey | 2024-04-10

人形機(jī)器人產(chǎn)業(yè)：如何使產(chǎn)學(xué)研更有效地合作？

機(jī)器人 202409 人形機(jī)器人 | 2024-09-30

人形機(jī)器人的學(xué)者企業(yè)家對未來幾年的預(yù)測

機(jī)器人 202409 人形機(jī)器人 | 2024-09-30

從素材引領(lǐng)大模型(如Sora等)生成視頻

智能計(jì)算 202409 大模型生成視頻 | 2024-09-29

奎芯科技：創(chuàng)新IP設(shè)計(jì)擁抱新一輪技術(shù)革命

EDA/PCB 202409 奎芯 IP設(shè)計(jì) | 2024-09-28

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)