創(chuàng)意有瓶頸嗎?百度文心·一格:不存在,動(dòng)動(dòng)手指片刻生成藝術(shù)大作
這次,百度文心跨模態(tài)大模型讓你的創(chuàng)意「飛起來」!
在近年來的 AI 領(lǐng)域,隨著 NLP 和 CV 的日益融合,多模態(tài)學(xué)習(xí)越來越受到學(xué)界和業(yè)界的重視,其中文本生成圖像更是成為現(xiàn)象級(jí)研究方向。輸入一段語言描述,AI 即能輸出對(duì)應(yīng)的圖像,兼具速度與質(zhì)量。
在這股以文生圖風(fēng)潮中,AI 底蘊(yùn)深厚的國外大廠紛紛推出多模態(tài)文生圖模型,比如 DALL-E 2、 GauGAN2 和 Disco Diffusion 等。這些 AI 模型生成的圖像都給人留下了深刻的印象,在逼真度、趣味性、風(fēng)格等方面各有特點(diǎn)。
DALL-E 2(左)和 Disco Diffusion(右)的不同畫風(fēng)。
國內(nèi) AI 巨頭在中文多模態(tài)特別是文生圖這一賽道也頗有建樹,尤以百度基于知識(shí)增強(qiáng)的文心跨模態(tài)大模型語義理解技術(shù)為代表,其中的跨模態(tài)生成大模型 ERNIE-ViLG 可以根據(jù)用戶輸入的語言描述自動(dòng)創(chuàng)作不同風(fēng)格(水彩、粉筆畫、卡通、油畫、蠟筆畫、兒童畫)的圖像。前段時(shí)間,百度數(shù)字人度曉曉更是創(chuàng)作出了引發(fā)熱議的「****」系列畫作,被專業(yè)美院教授評(píng)價(jià)為「已經(jīng)達(dá)到了本科美術(shù)生的基本要求」。
不過,百度并沒有滿足于此,想要在文生圖領(lǐng)域更專、更快,讓生成的圖像打破風(fēng)格的桎梏,同時(shí)更關(guān)注用戶的創(chuàng)意需求。在今日成都舉辦的 2022 中國圖象圖形大會(huì)上,百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心副主任吳甜重磅推出了基于文心大模型的 AI 藝術(shù)和創(chuàng)意輔助平臺(tái)——文心 · 一格,突出創(chuàng)意成為它的顯著特征。
百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心副主任吳甜
作為業(yè)界首個(gè) AI 藝術(shù)和創(chuàng)意輔助平臺(tái),文心 · 一格面向三類人群,包括 1)畫師、設(shè)計(jì)師、藝術(shù)家等視覺內(nèi)容創(chuàng)作者,2)媒體、作者等文字內(nèi)容創(chuàng)作者和 3)大眾用戶。他們可以通過文心 · 一格智能生成多樣化創(chuàng)意圖片,并從中汲取創(chuàng)意靈感,打破創(chuàng)意瓶頸。
一格平臺(tái)體驗(yàn)地址(點(diǎn)擊閱讀原文):yige.baidu.com
不同于 DALL-E 2 和 Disco Diffusion 等有風(fēng)格偏向性的 AI 作畫工具,一格則取多家之所長,在圖畫創(chuàng)作上具有更強(qiáng)的實(shí)用性和藝術(shù)性,支持插畫、科幻、中國畫、動(dòng)漫風(fēng)等十余種不同風(fēng)格高清藝術(shù)畫作的生成,既能生產(chǎn)恢弘絢麗的藝術(shù)畫,也能創(chuàng)作充滿創(chuàng)意腦洞的超寫實(shí)圖。
文心 · 一格,一語成畫
一格文生圖效果到底如何呢?輸入語言描述「太空中不斷延伸的環(huán)形軌道」,我們得到了如下震撼的太空?qǐng)D??梢钥闯?,一格生成的圖像具有極強(qiáng)的寫實(shí)性,如果不告訴你這是出自 AI 之手,一定會(huì)有人認(rèn)為是真實(shí)的太空?qǐng)鼍啊?/span>
當(dāng)然,寫實(shí)性強(qiáng)只是一格文生圖的一方面優(yōu)勢,它在生成寫實(shí)圖像的同時(shí)還兼顧了藝術(shù)風(fēng)格。依然用示例說話,輸入語言描述「埃及金字塔」。以往的 AI 模型比較擅長生成風(fēng)景圖,但復(fù)現(xiàn)真實(shí)建筑則有相當(dāng)難度,有些模型生成的圖像偏藝術(shù)缺乏真實(shí)性。一格則在真實(shí)性與藝術(shù)性之間找到了很好的平衡。
接下來繼續(xù)欣賞一格生成的另一些創(chuàng)意畫作。想了解下傳說中的「鳳凰」長什么樣子,交給一格,片刻之后就能生成恢弘絢麗的畫面。
一格生成創(chuàng)意腦洞的超寫實(shí)圖也不在話下,比如「騎摩托的帥氣熊貓」、「公園的湖面波光粼粼,倒映著美麗的建筑」。
所有這些,用戶要做的就是動(dòng)動(dòng)手指,輸入語言描述,片刻之后就能生成藝術(shù)大作。在創(chuàng)作過程中,一格還可以通過指定圖像風(fēng)格、藝術(shù)家等方式,針對(duì)同一個(gè)語言描述生成多樣化的、具備不同風(fēng)格特點(diǎn)的圖像。
一番創(chuàng)作下來,我們可以用 16 個(gè)字來概括一格的主要特點(diǎn):突破想象、簡單易用、快速成畫、別具一格。
- 突破想象:一格擁有非常豐富的創(chuàng)作庫,可根據(jù)語義聯(lián)想和概念組合,自由創(chuàng)作多種風(fēng)格創(chuàng)意畫作,既能生成恢弘絢麗的藝術(shù)畫,也能生成創(chuàng)意腦洞的超寫實(shí)圖;
- 簡單易用:一格使用門檻非常低,用戶只需輸入一句語言描述,一格就可創(chuàng)作出不同風(fēng)格的藝術(shù)畫作;
- 快速成畫:用戶輸入語言描述后,一格可在片刻生成一幅高清創(chuàng)意畫作;
- 別具一格:一格生成的每幅畫作,都是獨(dú)一無二的。
一格文生圖過程
一格文生圖的過程大致可以分為以下幾個(gè)步驟。
首先,需要準(zhǔn)備海量的圖文對(duì)數(shù)據(jù),數(shù)量不僅要多,質(zhì)量還要好,這樣可以讓一格在充足的數(shù)據(jù)中學(xué)習(xí)「語言描述」與「藝術(shù)畫面」的關(guān)聯(lián)。不過,這種關(guān)聯(lián)又是豐富且復(fù)雜的。
依然用示例來講,假如是讓生成一幅風(fēng)景圖,結(jié)果出來的是動(dòng)物圖,那就很糟糕了。還有就是,同一個(gè)事物有多種藝術(shù)風(fēng)格,例如山峰在中國畫中是壁立千仞,在油畫中是威嚴(yán)莊重,在科幻設(shè)定圖中或許已經(jīng)被機(jī)械掏空,建立起了霓虹閃爍的未來都市等。經(jīng)過海量的數(shù)據(jù)訓(xùn)練,一格學(xué)會(huì)了「語言描述」與「藝術(shù)畫面」之間的關(guān)聯(lián)。
在此基礎(chǔ)上,用戶輸入一段語言描述(例如狗、油畫),一格將調(diào)動(dòng)以上學(xué)習(xí)到的知識(shí)和能力,以隨機(jī)化的起點(diǎn)開始進(jìn)行初步創(chuàng)作。不同于人類作畫過程,一格先是生成畫面整體輪廓,然后經(jīng)過數(shù)百輪的迭代,修正完善畫面細(xì)節(jié)。
對(duì)于過程中的每一輪迭代,一格都會(huì)仔細(xì)檢查草稿與語言描述的一致性,目的就是讓作品與輸入的語言描述具有正確的關(guān)聯(lián)。持續(xù)的修正使得整體構(gòu)圖不斷明晰,模糊和噪聲逐漸被精確的配色和輪廓代替,最終形成在審美上與人類經(jīng)驗(yàn)與知識(shí)高度一致的成品。
一格創(chuàng)作過程中,語言描述是關(guān)鍵,因?yàn)橛脩糨斎氲膬?nèi)容決定了其生成的內(nèi)容,是作畫靈感的根本來源,更是 AI 生成畫作最關(guān)鍵的指引。一格從海量數(shù)據(jù)中學(xué)習(xí)到的知識(shí),是靈感得以實(shí)現(xiàn)的基礎(chǔ),人類畫作數(shù)千年的積累和沉淀為 AI 文生圖提供了無限可能。
與此同時(shí),AI 生成圖像過程中的隨機(jī)性,是靈感的補(bǔ)充,其可以學(xué)習(xí)一千種人類繪制山峰的方式,甚至創(chuàng)造出第一千零一種。
一格為藝術(shù)創(chuàng)作提供靈感
你可能會(huì)問,一格文生圖有什么意義呢?
對(duì)于畫師、設(shè)計(jì)師、藝術(shù)家等專業(yè)人士來說,他們總會(huì)遇到瓶頸期。雖然有很好的創(chuàng)作思路和構(gòu)想,但卻一時(shí)想不出好的或自己滿意的繪畫表現(xiàn)形式;或者藝術(shù)創(chuàng)作已經(jīng)達(dá)到了相當(dāng)?shù)母叨?,尋求新的突破?chuàng)新遇到困難;又或者創(chuàng)作出的東西總是達(dá)不到自己想要的效果,進(jìn)行到一半就進(jìn)行不下去了……
一格平臺(tái)就是為此而生,它可以啟發(fā)創(chuàng)意,讓人們從 AI 生成的圖像中重新汲取靈感。
再者作為媒體人、新聞編輯等工作人員,有時(shí)會(huì)因?yàn)檎也坏胶线m的配圖而苦惱不已;還有就是大眾用戶,想體驗(yàn)創(chuàng)作帶來的樂趣等。所有這些,一格平臺(tái)也都能為你提供。
一格背后持續(xù)創(chuàng)新的跨模態(tài)大模型技術(shù)
我們知道,AI 圖文創(chuàng)作往往需要解決三個(gè)關(guān)鍵挑戰(zhàn)。首先在需求理解階段,要準(zhǔn)確理解需求,降低語言描述的門檻;其次在原創(chuàng)生成階段,要精準(zhǔn)刻畫用戶需求表意,支持多樣化風(fēng)格;最后在需求滿足階段,要對(duì)生成結(jié)果進(jìn)行選擇,保證和提升它們的質(zhì)量。
然而,解決這些挑戰(zhàn)并不容易。因此,一格平臺(tái)在構(gòu)建過程中得到了百度文心大模型提供的強(qiáng)大底層技術(shù)支持,尤其是不斷改進(jìn)的跨模態(tài)技術(shù)。
一方面對(duì)文心知識(shí)增強(qiáng)跨模態(tài)理解大模型的創(chuàng)新,提出了基于多視角對(duì)比學(xué)習(xí)的 ERNIE-ViL 2.0,在預(yù)訓(xùn)練過程同時(shí)學(xué)習(xí)模態(tài)間和模態(tài)內(nèi)的多種關(guān)聯(lián)性,提升了「圖像」和「文本」跨模態(tài)語義匹配效果,檢索效果遠(yuǎn)超 ChineseCLIP、WenLan 等模型。
另一方面是全球規(guī)模最大中文跨模態(tài)生成模型 ERNIE-ViLG,它將「文生成圖」和「圖生成文」任務(wù)融合到同一個(gè)模型進(jìn)行端到端學(xué)習(xí),從而增強(qiáng)文本和圖像的跨模態(tài)語義對(duì)齊。此次 ERNIE-ViLG 文圖生成算法迎來升級(jí),通過漸進(jìn)式擴(kuò)散模型,生成空間由小及大、生成輪廓由粗到細(xì),同時(shí)根據(jù)生成階段自動(dòng)選擇最優(yōu)生成網(wǎng)絡(luò),文本生成圖像的效果取得進(jìn)一步提升。
左為雙向圖像 - 文本生成的 ERNIE-ViLG 模型架構(gòu),右為漸進(jìn)式擴(kuò)散模型算法。
得益于文心跨模態(tài)大模型的一系列創(chuàng)新,百度將新技術(shù)實(shí)用化,研發(fā)出了一套支持 AI 作畫的文生圖系統(tǒng),提供了從用戶需求理解到滿足的全流程解決方案。如下圖所示,這套系統(tǒng)分為了兩大核心組件,分別是文本輸入階段基于知識(shí)的 prompt 工程以及生成和輸出階段的跨模態(tài)大模型。
首先,對(duì)于基于知識(shí)的 Prompt 工程,理解用戶需求并在此基礎(chǔ)上豐富語義細(xì)節(jié),降低用戶輸入描述成本。其次,基于擴(kuò)散生成算法實(shí)現(xiàn)創(chuàng)意寫實(shí)與恢弘構(gòu)圖的藝術(shù)畫作生成。最后,基于跨模態(tài)匹配大模型進(jìn)行生成畫作的結(jié)果排序,自動(dòng)選出語義與美觀度最佳的畫作。
基于文心大模型的文生圖系統(tǒng)。
可以這樣說,文心跨模態(tài)大模型實(shí)現(xiàn)了多視角對(duì)比學(xué)習(xí)、圖文雙向生成、漸進(jìn)式擴(kuò)散模型等多項(xiàng)技術(shù)創(chuàng)新,它們成就了今日的一格平臺(tái)。
在不斷修煉技術(shù)內(nèi)功的同時(shí),百度還致力于構(gòu)建生態(tài)完整的開放社區(qū),將大模型的能力釋放給普通人。更具體地講,百度為開發(fā)者、廣大科技愛好者提供飛槳開源工具和文心大模型 API 服務(wù)能力,滿足他們多樣化的創(chuàng)意探索需求。
一方面,開發(fā)者可以在飛槳 PaddleHub 上直接調(diào)用相關(guān)的開源模型,享受極簡易用的開發(fā)體驗(yàn),并綜合使用提供的 400 多個(gè) AI 開源模型,組合開發(fā)有趣的 AI 應(yīng)用,滿足更多藝術(shù)從業(yè)者、開發(fā)者對(duì)圖片生成場景的需求;另一方面,文圖生成大模型 ERNIE-ViLG 為開發(fā)者提供了 API 體驗(yàn)調(diào)用的入口,登陸飛槳旸谷社區(qū) API 體驗(yàn)專區(qū)即可體驗(yàn)其前沿技術(shù)能力,并能夠靈活方便、高效快速將文圖生成大模型能力集成到產(chǎn)品中。
從之前數(shù)字人度曉曉的作詞編曲、寫作繪畫,到 AI 修復(fù)傳世名畫《富春山居圖》,大模型賦能下的 AIGC 早已成為近來百度 AI 技術(shù)加速落地的著陸點(diǎn)。得益于持續(xù)創(chuàng)新的大模型技術(shù),百度不斷拓寬 AIGC 的適用范圍,并努力發(fā)掘更多樣化的內(nèi)容生產(chǎn)方式。
此次,百度在為用戶提供 ERNIE-ViLG API 體驗(yàn)智能作畫的基礎(chǔ)上更進(jìn)一步,用一格這個(gè)面向創(chuàng)意內(nèi)容的產(chǎn)品級(jí)綜合文生圖平臺(tái),為 AIGC 注入了更多活力和想象空間。在可預(yù)見的未來,一格生成的超寫實(shí)與藝術(shù)畫作,既有可能像度曉曉「****」系列畫作一樣成為熱賣的數(shù)字藏品,還可以用作契合電影、動(dòng)漫主題的封面大作,更有望在游戲、元宇宙的多樣化動(dòng)態(tài)場景畫面中找到用武之地。
總之,在新的內(nèi)容創(chuàng)意和方式不斷涌現(xiàn)的當(dāng)下,AIGC 絕不應(yīng)只停留在玩一玩、看一看的階段,未來一定會(huì)在特定的應(yīng)用場景中為生產(chǎn)者創(chuàng)造價(jià)值,既可以是藝術(shù)上的,也可以是物質(zhì)上的。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)