色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了嗎?一文總結(jié)生物制藥必備經(jīng)典模型(二)

          OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了嗎?一文總結(jié)生物制藥必備經(jīng)典模型(二)

          發(fā)布人:機(jī)器之心 時(shí)間:2023-07-09 來(lái)源:工程師 發(fā)布文章

          1990年代后期,計(jì)算生物學(xué)開(kāi)始成為生物學(xué)中非常重要的一部分。在大熱的AlphaFold掀起浪潮之前,就有科學(xué)家斷言:所有生物學(xué)都是計(jì)算生物學(xué)。AI或者深度學(xué)習(xí)的出現(xiàn),給計(jì)算生物學(xué)帶來(lái)了新的巨大的發(fā)展空間。

          對(duì)于生物學(xué)本身,傳統(tǒng)的實(shí)驗(yàn)和分析手段已難以充分開(kāi)發(fā)海量生物數(shù)據(jù),確實(shí)需要計(jì)算生物學(xué)這種跨學(xué)科同時(shí)兼顧多個(gè)細(xì)分領(lǐng)域的綜合性工具來(lái)解決問(wèn)題。在具體實(shí)驗(yàn)方法上,當(dāng)前絕大多數(shù)采用的都是基于已有數(shù)據(jù)庫(kù)和資源、利用成熟工具來(lái)解決特定問(wèn)題或自行設(shè)計(jì)統(tǒng)計(jì)分析、數(shù)值計(jì)算的方法,而計(jì)算生物學(xué)的出現(xiàn)讓干濕實(shí)驗(yàn)結(jié)合的新方法開(kāi)始走向主流(在生物上講,干實(shí)驗(yàn)就是通過(guò)計(jì)算機(jī)模擬以及生物信息學(xué)方法來(lái)進(jìn)行研究。濕實(shí)驗(yàn)就是通過(guò)在實(shí)驗(yàn)室里采用分子、細(xì)胞、生理學(xué)試驗(yàn)方法進(jìn)行研究)。引入AI,實(shí)現(xiàn)了對(duì)在傳統(tǒng)的濕實(shí)驗(yàn)環(huán)境中的假設(shè)的驗(yàn)證,干濕實(shí)驗(yàn)共同迭代加速,AI和傳統(tǒng)科研結(jié)合帶來(lái)的巨大潛能,有望帶來(lái)一場(chǎng)全新的科學(xué)革命。

          在計(jì)算生物學(xué)中,AI的應(yīng)用主要有三類:一是,計(jì)算推演生物性質(zhì)及原理,包括:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、致病機(jī)理研究、蛋白質(zhì)相互作用預(yù)測(cè)(PPI)、抗體和抗原的表位預(yù)測(cè)、基于基因組學(xué)尋找疾病成因或?qū)ふ倚滦偷纳飿?biāo)志物等。(生物標(biāo)志物是指可以標(biāo)記系統(tǒng)、器官、組織、細(xì)胞及亞細(xì)胞結(jié)構(gòu)或功能的改變或可能發(fā)生的改變的生化指標(biāo),可用于疾病診斷、判斷疾病分期或者用來(lái)評(píng)價(jià)新藥或新療法在目標(biāo)人群中的安全性及有效性。)這些研究的成果后續(xù)可用于得到新的藥物靶點(diǎn)等,為疾病治療提供基本思路。二是搭建預(yù)測(cè)及判斷模型,包括:AI制藥中基于靶點(diǎn)的化合物性質(zhì)預(yù)測(cè)(主要涉及小分子藥物開(kāi)發(fā)),疾病診斷/監(jiān)控/治療建模,涵蓋細(xì)胞/器官/人體的生物模擬器等。其中,生物模擬器的本質(zhì)功能是用于驗(yàn)證特定療法有效性的生物模擬器,可以簡(jiǎn)單理解為生物醫(yī)藥領(lǐng)域的數(shù)字孿生。三是對(duì)生物體進(jìn)行控制改造,包括:新療法/藥物開(kāi)發(fā)、精準(zhǔn)醫(yī)療和生物制造(以合成生物學(xué)為代表)。其中新療法/藥物開(kāi)發(fā)是目前落地最成熟的場(chǎng)景。再往細(xì)來(lái)說(shuō),對(duì)癌癥的個(gè)性化治療和基因組學(xué)也將成為精準(zhǔn)醫(yī)療中最先落地的場(chǎng)景。AI應(yīng)用于新藥開(kāi)發(fā),可以實(shí)現(xiàn)藥物靶點(diǎn)發(fā)現(xiàn)、藥物篩選和結(jié)構(gòu)優(yōu)化、合成路線等。

          本文聚焦于生物制藥中必備的TOP模型,具體來(lái)說(shuō)就是第三類AI應(yīng)用中的主要模型,可以運(yùn)用到整個(gè)藥物從研發(fā)、中試到生產(chǎn)的所有關(guān)鍵技術(shù)環(huán)節(jié)。上面提及的第二類AI應(yīng)用主要是生物醫(yī)藥領(lǐng)域的數(shù)字孿生,不包含在本文的討論范圍內(nèi)。

          本文回顧的必備TOP模型主要包括蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和蛋白設(shè)計(jì)、分子生成、分子表征和性質(zhì)預(yù)測(cè)這三類應(yīng)用,而化學(xué)合成/逆合成及其它大數(shù)據(jù)分析應(yīng)用等,暫不包含在本文討論的模型范圍中。AI的各種模型和算法應(yīng)用在生物制藥領(lǐng)域,需要與對(duì)應(yīng)的生物學(xué)、醫(yī)學(xué)知識(shí)高度結(jié)合,因此,本報(bào)告中對(duì)必備TOP模型的介紹主要是從AI建模的角度對(duì)模型總體架構(gòu)和整體設(shè)計(jì)思路進(jìn)行介紹,各個(gè)模型設(shè)計(jì)的技術(shù)細(xì)節(jié)、模型調(diào)參等思路和技術(shù)創(chuàng)新點(diǎn),需結(jié)合原文和所應(yīng)用的醫(yī)學(xué)場(chǎng)景深入理解。



          一、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和蛋白設(shè)計(jì)


          1、 OmegaFold

          AI預(yù)測(cè)蛋白質(zhì)3D結(jié)構(gòu),僅通過(guò)單條蛋白序列就能搞定。也就是說(shuō),AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),可以不需要蛋白質(zhì)進(jìn)化過(guò)程中的同源信息。一些人工設(shè)計(jì)的蛋白質(zhì)藥物和工業(yè)合成用酶,也可以通過(guò)AI預(yù)測(cè)3D結(jié)構(gòu),確定其對(duì)人體的功能,實(shí)現(xiàn)這一功能的模型就是OmegaFold。OmegaFold的整體模型在概念上受到自然語(yǔ)言處理的語(yǔ)言模型以及AlphaFold2中使用的深度神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展的啟發(fā)。


          圖片圖1 OmegaFold的模型結(jié)構(gòu)。主要的蛋白質(zhì)序列首先被送入一個(gè)預(yù)訓(xùn)練的蛋白質(zhì)語(yǔ)言模型(Omega protein language model,OmegaPLM),以獲得殘基級(jí)節(jié)點(diǎn)嵌入和殘基-殘基配對(duì)嵌入。然后,一堆Geoformer層迭代更新這些嵌入,以提高其幾何一致性。最后,一個(gè)結(jié)構(gòu)模塊從最終的嵌入中預(yù)測(cè)出三維蛋白質(zhì)結(jié)構(gòu)。預(yù)測(cè)的結(jié)構(gòu)和嵌入可以通過(guò)循環(huán)程序再次輸入到另一個(gè)循環(huán)中,以預(yù)測(cè)更精細(xì)的結(jié)構(gòu)


          這項(xiàng)工作專注于設(shè)計(jì)一個(gè)內(nèi)存高效的自注意力架構(gòu),通過(guò)改進(jìn)以前的PLM的不同組件,如位置編碼功能、非線性轉(zhuǎn)換和歸一化功能,使PLM更加深入。OmegaPLM的整體架構(gòu)是一個(gè)自注意力模型,其中,每個(gè)token是一個(gè)氨基酸。OmegaFold模型用一堆GAU層來(lái)處理一個(gè)蛋白質(zhì)序列,而不是用自注意力層和多層感知器。該模型包含66個(gè)層,大約有6.7億個(gè)參數(shù),沒(méi)有共享參數(shù)。令n_i∈R^d作為位置i的token的d維向量表示,Algorithm 1中給出了OmegaPLM的詳細(xì)過(guò)程。


          圖片 

          Pre-LayerNorm。如算法1所示,引入pre-LayerNorm操作,將層歸一化放在殘差塊之間。正如最近的研究表明,預(yù)層規(guī)范化能夠產(chǎn)生更穩(wěn)定的梯度,特別是在初始化時(shí)。目前在不同的深度學(xué)習(xí)包中普遍存在的歸一化層的實(shí)現(xiàn),通常包含element-wise的仿射變換,其參數(shù)可學(xué)習(xí),緊隨其后的是許多 pre-layernorm Transformers的線性操作。然而,這種配置在數(shù)學(xué)上并沒(méi)有意義,只會(huì)在訓(xùn)練期間選擇優(yōu)化器造成的微小差異。因此,刪除了pre-LayerNorm中的所有element-wise仿射變換。

          Gated Attention Unit。沒(méi)有使用多頭自注意力(multi-headed self-attention,MHSA),而是采用了門控注意單元(GAU)(算法1中的第8行),它作為多頭自注意力的替代品,具有較小的內(nèi)存消耗和較快的收斂率,顯示出巨大的前景。在注意力聚集后應(yīng)用門控操作,用relu2(-)取代傳統(tǒng)的softmax(-)函數(shù)來(lái)聚集成對(duì)的對(duì)數(shù)。特別是,使用一個(gè)額外的門控向量gi∈R^dv,其中dv是價(jià)值向量的維度,后來(lái)以元素方式與價(jià)值vj的加權(quán)和相乘(第8行)。

          Relative Positional Encoding (RoPE)。注意力機(jī)制本質(zhì)上是變異的,所以它在應(yīng)用于序列數(shù)據(jù)時(shí)需要位置信息。這里我們應(yīng)用旋轉(zhuǎn)位置嵌入(rotary positional embedding,RoPE)(算法1中的第5行和第6行)來(lái)編碼一對(duì)氨基酸的位置信息,其定義見(jiàn)算法2。利用復(fù)數(shù)的特性解決了這個(gè)問(wèn)題,并將這種機(jī)制應(yīng)用到查詢和密鑰中。為了進(jìn)一步強(qiáng)調(diào)相對(duì)位置信息的影響,引入一個(gè)偏置項(xiàng)b_i-j,它是針對(duì)位置i和j的。注意b_i-j和b_j-i的值是不同的。沒(méi)有隨著絕對(duì)相對(duì)位置的增加而減少嵌入值,而是對(duì)相對(duì)位置進(jìn)行剪輯以允許extrapolation。


          圖片



          項(xiàng)目SOTA!平臺(tái)項(xiàng)目詳情頁(yè)
          OmegaFold前往 SOTA!模型平臺(tái)獲取實(shí)現(xiàn)資源:https://sota.jiqizhixin.com/project/omegafold


          2、 EquBind

          EquBind的工作發(fā)表在ICML 2022中。之前典型的‘配體-蛋白質(zhì)’方法,就像試圖讓模型將鑰匙插入一個(gè)有許多鎖孔的鎖中,需要花大量時(shí)間對(duì)鑰匙和每個(gè)鎖孔的配合度打分,然后選擇最合適的那個(gè)。而EquBind可以跳過(guò)最耗時(shí)的步驟,遇到新分子時(shí)可提前預(yù)測(cè)最合適的‘鎖眼’,這就是所謂的‘盲對(duì)接’。其內(nèi)置的幾何推理算法,可幫助模型學(xué)習(xí)分子的基本結(jié)構(gòu)。該算法允許EquBind在遇到新分子時(shí)直接預(yù)測(cè)最合適的位置,而不是花費(fèi)大量時(shí)間嘗試不同的位置并對(duì)其進(jìn)行評(píng)分。即,EquBind依靠SE(3)等價(jià)圖神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)結(jié)合的蛋白質(zhì)配體構(gòu)象,只需一次就能完成。EquBind將配體分子圖與隨機(jī)關(guān)聯(lián)的非結(jié)合三維構(gòu)象體以及受體結(jié)合結(jié)構(gòu)作為輸入,詳細(xì)結(jié)構(gòu)如圖2所示。

          圖片圖2 EquBind結(jié)構(gòu)

          K-NN圖的表示。將兩個(gè)輸入分子表示為空間k-近鄰(k-NN)圖。配體圖G = (V, E)使用原子作為節(jié)點(diǎn),其各自的三維坐標(biāo)來(lái)自未結(jié)合的構(gòu)象體,表示為X∈R^3×n,以及初始特征F∈R^d×n(例如原子類型)。邊緣包括距離在4?A以內(nèi)的所有原子對(duì)。受體圖 G‘ = (V’, E‘) 將殘基作為節(jié)點(diǎn),其三維坐標(biāo)X0∈R……3×m由α-碳的位置給出。每個(gè)節(jié)點(diǎn)在圖中都與最近的10個(gè)其他節(jié)點(diǎn)相連,距離小于30?A。

          Independent E(3)-equivariant transformations。使用獨(dú)立E(3)-變量圖匹配網(wǎng)絡(luò)(IEGMN),它結(jié)合了圖匹配網(wǎng)絡(luò)和E(3)-變量圖神經(jīng)網(wǎng)絡(luò)。這種架構(gòu)共同轉(zhuǎn)換特征和三維坐標(biāo),以進(jìn)行神經(jīng)圖內(nèi)部的信息傳遞。
          IEGMN(X, F, X’ , F’ ) = Z ∈ R ^3×n, H ∈ R^ d×n, Z’ ∈ R^ 3×m, H’ ∈ R^ d×m。IEGMNs的核心屬性是,堆疊任何數(shù)量的此類層都能保證原始輸入結(jié)構(gòu)的任何獨(dú)立旋轉(zhuǎn)和平移都將準(zhǔn)確地反映在輸出中。在實(shí)踐中,圖11所示的Z、H、Z'、H'輸出是通過(guò)堆疊幾個(gè)IEGMN層得到的。我們對(duì)單個(gè)第l層的選擇是:

          圖片

          Z的作用。表示為Z和Z'的坐標(biāo)E(3)等價(jià)變換的輸出將被用于不同的作用:識(shí)別剛體變換和結(jié)合點(diǎn),以及通過(guò)訓(xùn)練Z來(lái)表示變形的原子點(diǎn)云來(lái)模擬配體的靈活性。

          項(xiàng)目SOTA!平臺(tái)項(xiàng)目詳情頁(yè)
          EquBind前往 SOTA!模型平臺(tái)獲取實(shí)現(xiàn)資源:https://sota.jiqizhixin.com/project/equbind


          3、RELATION

          基于深度學(xué)習(xí)的從頭分子設(shè)計(jì)最近獲得了相當(dāng)大的關(guān)注。許多基于深度學(xué)習(xí)的生成模型已被成功開(kāi)發(fā)出來(lái)并應(yīng)用于設(shè)計(jì)新的分子,但其中大多數(shù)是以配體為中心的,target binding pockets的三維幾何形狀在分子生成中的作用還沒(méi)有得到很好的利用。為此,提出了一個(gè)新的基于三維的生成模型,稱為RELATION。在RELATION模型中,BiTL算法被專門設(shè)計(jì)用來(lái)提取蛋白質(zhì)-配體復(fù)合物的所需幾何特征并將其遷移到一個(gè)潛在的空間進(jìn)行生成,在引入雙向遷移學(xué)習(xí)后,隱藏層的采樣能夠同時(shí)兼顧生成分子的骨架片段的新穎性以及對(duì)靶標(biāo)蛋白的親和性。應(yīng)用藥效團(tuán)約束生成( pharmacophore conditioning)貝葉斯優(yōu)化(BO)采樣,能夠有效地瀏覽巨大的化學(xué)空間,可供用戶定制化生成藥效團(tuán)匹配度更高以及對(duì)靶標(biāo)的對(duì)接打分表現(xiàn)更好的分子。

          RELATION框架由兩個(gè)部分組成:(1)3D編碼器,使用了3D-CNN的結(jié)構(gòu),包括私有編碼器和共享編碼器。附帶SMILES標(biāo)簽的訓(xùn)練源域數(shù)據(jù)以及目標(biāo)域數(shù)據(jù)轉(zhuǎn)換成4D張量后,分別作為私有編碼器和共享編碼器的輸入。所有的編碼器具有相同的架構(gòu),均具有8層,第一層包含64個(gè)過(guò)濾器,然后在奇數(shù)層上加倍,最后一層學(xué)習(xí)512個(gè)過(guò)濾器。每一個(gè)偶數(shù)層后面都有一個(gè)額外的池化層,核數(shù)、步長(zhǎng)和填充為2,用于執(zhí)行下采樣。利用ReLU激活函數(shù)對(duì)3D-CNN模型進(jìn)行訓(xùn)練,并使用兩個(gè)輸出為512維的全連接層得到μ和σ,對(duì)其重參數(shù)化后,生成一個(gè)的1024維嵌入向量;(2)****,****的結(jié)構(gòu)是caption-LSTM,可以將隱藏層內(nèi)的高維向量轉(zhuǎn)化為SMILE分子式,caption-LSTM由三層組成,其詞匯量輸入大小為39,隱藏大小為1024。


          圖片
          圖3 RELATION架構(gòu)

          為了實(shí)現(xiàn)雙向遷移,定義損失函數(shù)如下:


          圖片

          在遷移學(xué)習(xí)中引入L_sim和βL_diff,使得隱藏層在生成過(guò)程中不僅考慮了源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集的相似性,也保留了源域數(shù)據(jù)集(結(jié)構(gòu)多樣性)和目標(biāo)域數(shù)據(jù)集(蛋白-配體親和力)各自的特征。L_sim項(xiàng)能夠保證共享隱藏層中小分子與復(fù)合物的相似性。L_latent表示編碼器由均值和單位方差均為零的多元高斯分布先驗(yàn)進(jìn)行正則化,表示為:


          圖片

          最后,L_caption用來(lái)測(cè)量原始輸入和通過(guò)字幕網(wǎng)絡(luò)產(chǎn)生的輸出之間的重建損失。

          項(xiàng)目SOTA!平臺(tái)項(xiàng)目詳情頁(yè)

          RELATION

          前往 SOTA!模型平臺(tái)獲取實(shí)現(xiàn)資源:https://sota.jiqizhixin.com/project/relation

          、分子生成

          1、 BIMODAL

          循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)能夠使用簡(jiǎn)化的分子輸入線輸入系統(tǒng)(SMILES)字符串表示的化學(xué)結(jié)構(gòu)來(lái)生成新的分子設(shè)計(jì)?;赗NN的結(jié)構(gòu)生成通常是單向進(jìn)行的,通過(guò)從左到右增長(zhǎng)SMILES字符串。然而,小分子沒(méi)有自然的起點(diǎn)或終點(diǎn),SMILES字符串本質(zhì)上是分子圖的非單點(diǎn)表示。這些特性促使了雙向結(jié)構(gòu)的生成。這篇文章介紹了用于基于SMILES的分子設(shè)計(jì)的雙向生成性RNNs,實(shí)現(xiàn)了兩種既定的雙向方法,并引入了一種用于SMILES字符串生成和數(shù)據(jù)增強(qiáng)的新方法:雙向分子設(shè)計(jì)交替學(xué)習(xí)法(BIMODAL)。作者將這三種雙向策略與用于SMILES字符串生成的單向正向RNN方法進(jìn)行了比較,內(nèi)容包括(i)計(jì)算機(jī)生成的分子的新穎性,(ii)支架的多樣性,(iii)化學(xué)-生物學(xué)相關(guān)性。

          圖片圖4 (a) SMILES字符串,從分子圖表示中獲得,每個(gè)原子用其元素符號(hào)表示,而分支和連接性用符號(hào)或小寫字母表示(例如,"( )"、"="和 "c "分別表示分支、雙鍵和芳香族碳)。圖中給出代表藥物布洛芬的三個(gè)SMILES字符串的示例;用于SMILES字符串生成的起始原子用灰色數(shù)字表示。(b) 帶有一個(gè)遞歸神經(jīng)元層的前向RNN的簡(jiǎn)化方案。RNNs是一個(gè)動(dòng)態(tài)系統(tǒng)的模型,其中任何一個(gè)時(shí)間點(diǎn)t的網(wǎng)絡(luò)狀態(tài)都取決于當(dāng)前的觀察(x_t)和之前的狀態(tài)(t - 1),并被用來(lái)預(yù)測(cè)輸出(y_t)


          以SMILES字符序列("token")作為輸入,RNN模型根據(jù)序列的前一部分和概率估計(jì),每次學(xué)習(xí)預(yù)測(cè)一個(gè)token(圖4b)??梢詮膶W(xué)到的概率分布抽樣新的SMILES字符串。RNNs通常被訓(xùn)練成以 "向前 "的方式讀取和生成SMILES字符串,即從左到右。然而,SMILES表示可以從任何非氫原子開(kāi)始,按任何方向進(jìn)行生成(圖4a)。與自然語(yǔ)言不同,小分子沒(méi)有唯一定義的起點(diǎn)和終點(diǎn)。非單向性和非方向性提供了探索雙向序列生成的機(jī)會(huì),即在前向和后向都能讀取和生成SMILES字符串的方法。然而,純粹的從頭開(kāi)始("端到端")的雙向SMILES生成至今還沒(méi)有被探索過(guò)。BIMODAL就是一種雙向生成性RNNs。

          給定一個(gè)輸入序列,生成式RNNs被訓(xùn)練成通過(guò)預(yù)測(cè)下一個(gè)序列標(biāo)記來(lái)擴(kuò)展這個(gè)序列,定義為y_t = x_t+1。使用帶有LSTM單元的RNNs以解決由長(zhǎng)序列和大型網(wǎng)絡(luò)結(jié)構(gòu)引起的梯度消失和梯度爆炸問(wèn)題。在任何給定的第t個(gè)時(shí)間步長(zhǎng),這樣的網(wǎng)絡(luò)由以下一組方程描述:


          圖片

          最常見(jiàn)的用于序列生成的RNNs版本從左到右進(jìn)行(前向),即從t=1到t=L,其中,L是SMILES序列的長(zhǎng)度。在訓(xùn)練過(guò)程中,輸入的第一個(gè)位置被填入一個(gè)序列開(kāi)始的token,而輸入的最后一個(gè)位置被填入一個(gè)序列結(jié)束的token。一旦RNN模型被訓(xùn)練好,新的序列就會(huì)通過(guò)(i)輸入起始token("G"),(ii)允許模型逐步選擇下一個(gè)token,給定各自的前一個(gè)token序列,直到生成結(jié)束token("E")(圖5a)。在每一個(gè)時(shí)間步長(zhǎng)t,每一個(gè)第k個(gè)符號(hào)跟隨生成的字符串的前一部分的概率是用一個(gè)softmax函數(shù)計(jì)算的


          圖片圖片

          圖5 基于RNN的SMILES字符串生成方法。SMILES生成從起始token "G "開(kāi)始,按預(yù)定方向進(jìn)行。(a) 前向RNN。從起始token "G "開(kāi)始,從左到右添加新的token。(b) BIMODAL方法:在每個(gè)時(shí)間步長(zhǎng)(t)交替生成token。該模型使用整個(gè)序列(前向和后向)來(lái)生成下一個(gè)token。(c) 前向-后向模型。從 "G "token開(kāi)始,每個(gè)時(shí)間步長(zhǎng)預(yù)測(cè)兩個(gè)token,兩邊各一個(gè)。(d) NADE方法:缺失的 "假 "token("M")被替換為有效的SMILES字符,可以向字符串的中心或以隨機(jī)方式替換


          在任何第t個(gè)時(shí)間步長(zhǎng),BIMODAL沿前向(x_m→x_t)和后向(x_t←x_m)方向讀取x={x_m, x_m+1, ..., x_t},在兩個(gè)方向上生成SMILES序列。然而,通過(guò)同時(shí)使用從左到右(向前)和從右到左(向后)的信息,每一步只有一個(gè)token被交替預(yù)測(cè)。BIMODAL由兩個(gè)RNN組成,每個(gè)方向(前向和后向)都有一個(gè)讀取序列,然后結(jié)合起來(lái)提供一個(gè)聯(lián)合預(yù)測(cè)(y_t):


          圖片

          在SMILES的生成設(shè)置中,BIMODAL在每個(gè)時(shí)間步長(zhǎng)t的前向和后向都會(huì)讀取序列(圖5b)。然后,它在前向或后向生成一個(gè)新token:


          圖片


          項(xiàng)目SOTA!平臺(tái)項(xiàng)目詳情頁(yè)
          BIMODAL前往 SOTA!模型平臺(tái)獲取實(shí)現(xiàn)資源:https://sota.jiqizhixin.com/project/bimodal


          2、 GF-VAE

          GF-VAE是一種用于分子圖生成的基于流的變分自動(dòng)編碼器(VAE)模型。該模型在原來(lái)VAE的基礎(chǔ)上增加了Flow模型****。其中,編碼器主要是加速解碼的訓(xùn)練,而****則依次優(yōu)化編碼器的性能。由于流模型的可逆性,生成過(guò)程很容易通過(guò)反轉(zhuǎn)****來(lái)完成。因此,GF-VAE繼承了VAE和基于流的方法的優(yōu)點(diǎn)。給定

          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉