迎接AIGC:掌握隱空間(一)
1 前言
上一期里我們?cè)?jīng)談到AI 有3 種型:識(shí)別型AI、生成型AI、決策型AI。一般而言,2020 年之前,識(shí)別型AI 是主流;而在2020 年之后,生成型AI 和決策型AI 逐漸蔚為主流。尤其是生成型AI 模型,如長(zhǎng)江后浪前浪,蒸蒸日上。
因之,本期就來談?wù)勆尚虯I( 例如AIGC) 的魅力源頭:隱空間(Latent space)。愈擅長(zhǎng)于操作隱空間向量(Vector),就愈能生成令人驚訝的創(chuàng)作?,F(xiàn)在,我們就來認(rèn)識(shí)隱空間,建立扎實(shí)的基礎(chǔ),以便順暢迎向AIGC新潮流。
2 復(fù)習(xí)AI基礎(chǔ)概念:特征
大家都知道,科學(xué)素養(yǎng)是從“觀察”開始。觀察是認(rèn)識(shí)現(xiàn)象( 如事物) 的起點(diǎn),也是智力活動(dòng)的泉源。觀察的目的主要是為了了解事物外部形態(tài)和特征。包括區(qū)分事物的一般特征(Feature)、發(fā)現(xiàn)事物的內(nèi)在本質(zhì)特征等,并且加以記錄,并對(duì)結(jié)果進(jìn)行描述和對(duì)比分析,以便提出新問題,進(jìn)行創(chuàng)造性的活動(dòng)。
簡(jiǎn)而言之,人們對(duì)于周遭的問題或事件??捎刹煌慕嵌葋碛^察或看出不同的特征。所謂特征,就是一件事物或一群事物,其具有與眾不同的特色或表征。例如,人們?cè)诒鎰e其他人的長(zhǎng)相時(shí),常常會(huì)觀察對(duì)方的臉形、眼神、嘴巴、發(fā)型等特征來區(qū)分和判斷,只要記住對(duì)方獨(dú)特的長(zhǎng)相特征就可以,不必記憶其他細(xì)節(jié)了。這是人們天賦的觀察和萃取特征的能力。再如,當(dāng)您一大早從家里出門時(shí),常常會(huì)先觀察天氣的特征:“烏云密布”,或是“陽(yáng)光普照”。這也是天賦特征萃取能力的表現(xiàn)。
了解了特征的意義之后,就可以近一步觀察到,特征與特征之間的可能存在有相互之間的關(guān)聯(lián)性,這又稱為:相關(guān)性(Correlation)。例如,當(dāng)我們觀察到天氣呈現(xiàn)了一個(gè)特征:高空上烏云密布;這時(shí)也常常會(huì)發(fā)現(xiàn)另一個(gè)特征:低空中蜻蜓紛飛。而且可能還會(huì)發(fā)現(xiàn)第3 項(xiàng)特征:快下雨了。
由于您觀察到了這3 項(xiàng)特征:“烏云密布”、“蜻蜓紛飛”和“快下雨了”。您就會(huì)趕緊采取行動(dòng),例如:趕快去收衣服,以免被淋濕了。所以這3 項(xiàng)特征與您的行動(dòng)之間,也具有緊密的關(guān)聯(lián)性。
3 以人臉特征為例
剛才提到了,人們?cè)诒鎰e其他人的長(zhǎng)相時(shí),常常會(huì)觀察對(duì)方的臉形、眼神、嘴巴、頭發(fā)的形狀、位置、顏色等特征來區(qū)分和判斷。其中,最簡(jiǎn)單的就是找出人臉的臉框(Box) 位置,以及其臉部關(guān)鍵點(diǎn)(Landmark) 的位置,例如眼睛,鼻子,嘴巴等位置坐標(biāo)。例如,有一張圖像,里面有兩張人臉( 圖1)。
圖1
請(qǐng)您按下“萃取臉部關(guān)鍵點(diǎn)”按鈕,這Excel 畫面就會(huì)調(diào)用幕后的Python 程序,來萃取各關(guān)鍵點(diǎn)的坐標(biāo)(圖2)。
圖2
圖2 里顯示出兩張臉的臉框和關(guān)鍵點(diǎn)特征。其中,男生臉框的左上角坐標(biāo)為(32, 67),且右下角坐標(biāo)為(78,126)。而女生臉框的左上角坐標(biāo)為(274, 52),且右下角坐標(biāo)為(320, 112)。接著來看看女生的臉部各關(guān)鍵點(diǎn)特征。
第1 點(diǎn):臉部的左邊眼睛坐標(biāo)為(289, 77)。
第2 點(diǎn):右邊眼睛坐標(biāo)為(311, 76)。
第3 點(diǎn):鼻子坐標(biāo)為(301, 90)。
第4 點(diǎn):嘴左角坐標(biāo)為(290, 99)。
第5 點(diǎn):嘴右角坐標(biāo)為(310, 98)。
4 復(fù)習(xí):空間映射的概念
在本專欄的前幾期里,已經(jīng)介紹過空間映射(Space Mapping) 的概念,及其在機(jī)器學(xué)習(xí)的重要功能。請(qǐng)您先復(fù)習(xí)本專欄第3 期的內(nèi)容:《ML( 機(jī)器學(xué)習(xí)):理解空間對(duì)映觀念》。在這里,簡(jiǎn)單復(fù)習(xí)這項(xiàng)AI( 機(jī)器學(xué)習(xí))的核心概念和技術(shù)。
當(dāng)人類看到自然空間的實(shí)際事物,收集這些事物的特征,提供給AI。而AI 則透過這些( 訓(xùn)練) 數(shù)據(jù)來( 間接) 觀察實(shí)際事物。這些X 數(shù)據(jù)則成為X 空間里的坐標(biāo),來觀察自然空間里實(shí)際事物之間的關(guān)聯(lián)性( 圖3)。
圖3
然后,AI 會(huì)很聰明地探索出兩個(gè)空間的對(duì)映關(guān)系(圖4)。
圖4
人們會(huì)在其生活的自然( 實(shí)物) 空間里,對(duì)其所感興趣的各項(xiàng)事物,并收集其特征,就成為各筆原始資料(Raw data),各對(duì)映到X 空間里的一點(diǎn)。然后再映射( 過濾) 到Y(jié) 空間;還可再?gòu)腨 空間映射( 過濾) 到Z 空間。而ML 的魅力就是它很擅長(zhǎng)于探索出對(duì)映的規(guī)律性。在AI 里,通常會(huì)將上述的空間,區(qū)分為兩種:可觀察空間(Observable space) 和隱( 藏) 空間(Latent space)。
5 認(rèn)識(shí)可觀察空間
茲舉一個(gè)最簡(jiǎn)單的范例來說明之。這里有5 只兔和貓,各收集其兩項(xiàng)特征:耳朵長(zhǎng)度與尾巴長(zhǎng)度。于是總共收集了5 筆原始數(shù)據(jù)(Raw data)。現(xiàn)在,就來把它們各對(duì)映到可觀察空間里的一個(gè)點(diǎn),而且兩項(xiàng)特征各對(duì)映到一個(gè)維度( 軸)。也就是,每一筆數(shù)據(jù)各對(duì)映到2 維(2-Dimension) 的坐標(biāo)空間里的一個(gè)點(diǎn)( 圖5)。
圖5
由于這個(gè)空間的每個(gè)維度的意義很明確,人人都可以理解。因此,每一個(gè)點(diǎn)所帶的含意,是類類可以理解的。它是人類可以觀察其含意的空間,就稱為:可觀察空間。
同樣地,這里有3 張臉( 即3 筆數(shù)據(jù)),含有其臉框和關(guān)鍵點(diǎn)的坐標(biāo),以及各有14 項(xiàng)特征( 圖6)。
圖6
現(xiàn)在,就來把這3 張臉( 即3 筆數(shù)據(jù)) 各對(duì)映到可觀察空間里的一個(gè)點(diǎn),而且14 項(xiàng)特征各對(duì)映到一個(gè)維度( 軸)。也就是, 每一筆數(shù)據(jù)各對(duì)映到14 維(14-Dimension) 的坐標(biāo)空間里的一個(gè)點(diǎn)( 圖7)。
圖7
由于這個(gè)空間的每個(gè)維度的意義很明確,人人都可以理解。因此,每一個(gè)點(diǎn)所帶的含意,是類類可以理解的。它是人類可以觀察其含意的空間,就稱為:可觀察空間。
6 結(jié)束語
俗語說:從有招到無招。又說:無招勝有招。這里介紹的“可觀察空間”可以說是有招的空間,人類可以理解空間各數(shù)據(jù)的含意。那么相對(duì)地,無招的空間就是“隱空間”,它是AI 創(chuàng)造出來的數(shù)據(jù)空間,人類就無法理解其數(shù)據(jù)的真實(shí)含意,所以稱為:隱空間。
由于篇幅的關(guān)系,我們下一期就從有招到無招,將詳細(xì)介紹神秘的隱空間,它是千變?nèi)f化AIGC 創(chuàng)作魅力的源頭。
(本文來源于《電子產(chǎn)品世界》雜志2023年1月期)
評(píng)論