色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 我裂開了...人類腦海中的畫面,被AI解碼了??

          我裂開了...人類腦海中的畫面,被AI解碼了??

          發(fā)布人:大數(shù)據(jù)文摘 時間:2022-11-21 來源:工程師 發(fā)布文章
          圖片大數(shù)據(jù)文摘授權轉(zhuǎn)載自夕小瑤的賣萌屋作者:白鹡鸰


          有沒有那么幾個瞬間,你要么想把自己腦子里的東西掏出來給別人看,要么想撬開別人的腦子看看里面都裝了什么?雖然錯過了霍格沃茨的入學時間,但如果從現(xiàn)在開始學習擴散模型和神經(jīng)學,可能很快你就能實現(xiàn)這個目標了。新加坡國立大學,香港中文大學,和Stanford聯(lián)手,基于擴散模型實現(xiàn)了從腦電波還原圖像的“人類視覺****”。效果奇佳,還開源了代碼和數(shù)據(jù),這還不來一起看看?

          圖片

          ▲圖1 基于腦電波還原的圖像與真實圖像對比
          論文題目:
          Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding

          論文鏈接:
          http://arxiv.org/abs/2211.06956


          代碼鏈接:
          https://github.com/zjc062/mind-vis


          背景


          故事要從神經(jīng)科學的基本理論說起。作為一個唯物主義的麻瓜,我必須相信,我的思維活動都依托于腦神經(jīng)細胞,其釋放的電信號就是大腦內(nèi)部通信計算的物理媒介。既然我能夠流暢地思考,那么腦電波必然傳遞了某種“有意義”的信號,而一段數(shù)據(jù)如果能攜帶某種信息,它必須要有一定規(guī)律可言。因此,從理論上來說,我們可以通過分析進行思維活動時產(chǎn)生的生物電信號,去反推思考的具體內(nèi)容。這個觀點已然不新奇了,大量的研究已經(jīng)證實了反推大腦思維的可行性,腦機接口蒸蒸日上的熱度,則是一個風向標,指示了相關技術在實際生活應用中的潛力。
          當然,高情商的說法是有潛力,換個樸實一點的說法,那就是目前還存在大量技術瓶頸,研究中障礙重重。就拿通過腦電波還原人腦海中的圖像這個任務來說,雖然腦電波是有規(guī)律的,這種規(guī)律卻非常復雜。不僅如此,“每個人的腦回路不一樣”也是物理的,也就是說,對同樣的刺激(stimuli) ,每個人大腦做出的反饋都會存在差異。這個問題好解決嗎?對于ML人來說,太簡單了,大數(shù)據(jù)驅(qū)動。然而,聯(lián)系到實際問題,腦電數(shù)據(jù)的采集,特別是有標簽(腦電產(chǎn)生者思考內(nèi)容)的腦電數(shù)據(jù)的采集,卻沒有特別豐富的數(shù)據(jù)。缺乏有標簽的數(shù)據(jù),缺乏處理數(shù)據(jù)的方法,是目前這個任務上一直難以取的進展的主要原因。

          方法


          基于fMRI收集的腦電數(shù)據(jù)


          人腦中有左右的腦細胞,而它們的激活模式是非線性的(一般會用一組復雜的微分方程建模)。為了能觀察如此復雜的神經(jīng)網(wǎng)絡的活動,目前廣泛采用的是功能性磁共振成像(fMRI,functional magnetic resonance imaging)技術。這項技術不會對被試者造成物理上的傷害,包括外部創(chuàng)口(侵入式)和輻射問題。它的原理是利用磁共振技術,追蹤大腦在思維活動時的血氧變化,依據(jù)于此成像。基于fMRI技術,研究者采集了大量的,特別是當人類在進行各種復雜的任務時的大腦活動數(shù)據(jù)。經(jīng)過分析,研究者們發(fā)現(xiàn)人們在處理同樣的任務時,大腦中被激活的區(qū)域基本相近 [1]。

          作為1991年的Nature封面,fMRI得到了廣泛研究,目前采集數(shù)據(jù)的技術已經(jīng)相當成熟。但這一塊的原理非常復雜,感興趣的話可以搜索血氧依賴機理,blood-oxygen-level-dependent, BOLD。


          圖片

          ▲圖2 語言(講故事)任務中大腦被激活區(qū)域
          神經(jīng)科學方面雖然有相當多fMRI的原始數(shù)據(jù),但在實際使用時,會遇到這樣一些問題:

          1. fMRI掃描所得到的數(shù)據(jù)是以三維形式的體素 (voxel)記錄的,每個數(shù)據(jù)點包括了三維坐標,電信號幅度等信息,維度很高。為了避免對體素直接進行運算,一般采用的方法是劃興趣區(qū)域 (Region of Interest, ROI),對電信號求時序上的均值,最終獲得一列體素,這樣的數(shù)據(jù)在緯度方面和通常處理的圖像數(shù)據(jù)存在相當?shù)牟罹啵?/span>
          2. 鄰近的體素往往電信號幅度相近,fMRI收集的信息中存在一定冗余;
          3. 因為人腦的復雜性,每個個體的數(shù)據(jù)都會存在一定的域偏移。


          圖片

          ▲圖3 fMRI數(shù)據(jù)的可視化,一列體素,可視化成了一維折線圖


          模型結構


          論文將提出的模型命名為MinD-Vis (Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding), 也算是給對處理fMRI數(shù)據(jù)的提示了——掩碼。由于fMRI數(shù)據(jù)中存在大量的冗余,即使將相當大一部分的數(shù)據(jù)進行了遮掩,最后也能重建得大差不離(見圖3)。因此,計算時直接加上掩碼也不會對模型效果產(chǎn)生太大影響。因為fMRI數(shù)據(jù)的格式和圖像一樣,論文采用了新出的Masked Image Modeling [2] 來生成embedding vector。
          編碼-解碼部分不是很意外地用了ViT。需要注意的是,中間表達采用的稀疏編碼,這是為了保證fMRI表征的細節(jié)不被破壞。
          以上是Masked Brain Modeling(圖4左)部分的工作,然后就是擴散模型部分,如何從經(jīng)過如此復雜預處理的fMRI數(shù)據(jù)中,獲取文本信息,并基于此生成圖像了(圖4右)。
          為了能從抽象的表征中獲得視覺信息,論文將解碼任務化歸成了conditional synthesis問題,因此可以使用擴散模型解決。擴散模型的網(wǎng)絡包括一個預訓練過的UNet模型。生成圖像時的限定條件信息基于fMRI數(shù)據(jù)生成,通過cross-attention head加入UNet。

          conditional synthesis是指限定某些特征后進行數(shù)據(jù)生成。例如,生成微笑的不同人臉。


          對于一個conditional generative模型而言,生成圖像要能在條件限定的特征上盡量穩(wěn)定,與條件無關的特征上保持多樣性。因為人與人的fMRI腦波數(shù)據(jù)中已經(jīng)夠為多樣,在生成圖像的時候,需要對UNet進一步約束,強化條件上的限制。

          圖片

          ▲圖4 MinD-Vis結構

          由于模型的結構較為復雜,當前版本的論文中沒有進行更為詳細的描述,推薦極度好奇的讀者直接看開源代碼。由于涉及了像Masked Brain Modeling,Diffusion Model這類前沿方法,在沒有一定基礎的情況下,想徹底吃透方法會需要相當?shù)臅r間和精力,大家可以量力而行。

          效果


          在大致了解了模型結構之后,還是來到各位最關心的部分,講講模型效果。
          由于fMRI的數(shù)據(jù)主要面向神經(jīng)科學方向的研究,滿足論文任務的數(shù)據(jù)量不大,模型的訓練、驗證、測試數(shù)據(jù)總共來自三個不同的數(shù)據(jù)集,不同集合的數(shù)據(jù)域都有所偏移。Human Connectome Project [1] 提供136,000個fMRI數(shù)據(jù)片段,沒有圖像,只有fMRI,主要是用來預訓練模型的解碼部分。Generic Object Decoding Dataset (GOD) [3] 是主要面向fMRI-圖像任務的,包含1250張來自200個類別的圖像,其中50張被用于測試。Brain, Object, Landscape Dataset (BOLD5000) [4] 則選取了113組fMRI-圖像數(shù)據(jù)對,作為測試。

          由于BOLD5000是第一次用于論文提出的任務,論文沒有在這個數(shù)據(jù)集上與過往工作進行效果對比。在GOD上基于腦波生成的圖像,在效果上相比過往研究顯然有了顯著進步。

          圖片

          ▲圖5 GOD數(shù)據(jù)集上,MinD-vis與過往方法效果比較
          論文中還有嚴謹?shù)南趯嶒?,展示了不同的模型部分對圖像生成效果的影響。部分圖片較為驚悚,此處不進行展示。感興趣的讀者可以參考圖6失敗集錦中右下角的圖片自行評估承受能力。
          圖片▲圖6 MinD-vis翻車集錦

          尾聲


          終于又到了白鹡鸰的快樂廢話環(huán)節(jié)。
          關于生成圖像翻車現(xiàn)象的猜想
          這未必完全是模型的鍋。根據(jù)多個生成模型的對比,可以假設被試者在看到圖像時,其實腦內(nèi)會有一些特定的特征被激活,但是因為被試者對圖像的理解方式、關注點有所區(qū)別,激活的特征組也存在差異。之所以會有這種想法,是因為論文附件中的效果展示中,一般細節(jié)越復雜,角度越怪的圖像,越容易生成失敗,這很有可能就是因為圖像難以用簡單的特征組描述導致的。
          這篇論文意義重大,影響深遠,后續(xù)工作可能上Nature
          這篇論文展示的圖像生成效果非常好,展示了通過fMRI精確還原人們腦內(nèi)圖像信息的可行性。在擁有了更大量的數(shù)據(jù)之后,人類是如何記憶圖像的更多細節(jié)的機理,可以通過生成圖像與被試者所見圖片之間的對比去推測,然后進一步完善、驗證。這是神經(jīng)科學和機器學習成功結合的典范,一個起步的信號。
          除此之外,論文本身能快速擁抱前沿技術,對SOTA模型的熟練應用,以及開源代碼的底氣也令我相當敬佩。對于論文后續(xù)的相關工作,我也會持續(xù)跟進。
          參考文獻:

          [1] David C Van Essen, Stephen M Smith, Deanna M Barch, Timothy EJ Behrens, Essa Yacoub, Kamil Ugurbil, Wu-Minn HCP Consortium, et al. The wu-minn human connectome project: an overview. Neuroimage, 80:62–79, 2013.[2] He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.[3] Tomoyasu Horikawa and Yukiyasu Kamitani. Generic decoding of seen and imagined objects using hierarchical visual features. Nature communications, 8(1):1–15, 2017.[4] Nadine Chang, John A Pyles, Austin Marcus, Abhinav Gupta, Michael J Tarr, and Elissa M Aminoff. Bold5000, a public fmri dataset while viewing 5000 visual images. Scientific data, 6(1):1–18, 2019.


          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。

          單片機相關文章:單片機教程


          單片機相關文章:單片機視頻教程


          單片機相關文章:單片機工作原理


          風速傳感器相關文章:風速傳感器原理
          土壤濕度傳感器相關文章:土壤濕度傳感器原理
          溫濕度控制器相關文章:溫濕度控制器原理
          燃氣報警器相關文章:燃氣報警器原理


          關鍵詞: AI

          相關推薦

          技術專區(qū)

          關閉