色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

"); //-->

博客專欄

EEPW首頁 > 博客 > MIT 最新研究：AlphaFold 蛋白質(zhì)預(yù)測能力太差，目前利用價(jià)值還很低

MIT 最新研究：AlphaFold 蛋白質(zhì)預(yù)測能力太差，目前利用價(jià)值還很低

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2022-09-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自AI科技評論

作者 | 李梅、黃楠

編輯 | 陳彩嫻

2018 年，Deepmind 首次發(fā)布基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)結(jié)構(gòu)預(yù)測數(shù)據(jù)庫 AlphaFold，在蛋白質(zhì)預(yù)測中實(shí)現(xiàn)了最先進(jìn)的性能；去年，AlphaFold 2 獲得了 98.5% 的蛋白質(zhì)預(yù)測率；前段時(shí)間，Deepmind 又重磅發(fā)布了數(shù)據(jù)集更新，稱目前的 AlphaFold 已經(jīng)預(yù)測了幾乎所有已知的蛋白質(zhì)。

如何有效識別****物作用機(jī)制在今天仍然是一個(gè)巨大挑戰(zhàn)，計(jì)算對接的方法已被廣泛用于預(yù)測****物結(jié)合靶點(diǎn)。有了大規(guī)模蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù)，****物發(fā)現(xiàn)將變得更容易。所以，自 AlphaFold 問世以來，稱其將引發(fā)一場結(jié)構(gòu)生物學(xué)的革命、徹底改變****物發(fā)現(xiàn)的聲音就不絕于耳。

本質(zhì)上，AlphaFold 是一個(gè)工具，我們目前真的能利用好這個(gè)工具嗎？

近日，來自 MIT 的研究團(tuán)隊(duì)給出了否定的回答。

他們對使用 AlphaFold2 的分子對接模擬的模型性能進(jìn)行了評估，發(fā)現(xiàn)模型在識別真正的蛋白質(zhì)-配體相互作用方面的預(yù)測能力較弱，并證明需要使用基于機(jī)器學(xué)習(xí)的方法進(jìn)行建模來提高模型性能，以更好地利用AlphaFold2 進(jìn)行****物發(fā)現(xiàn)。該論文“Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery”發(fā)表在了Molecular Systems Biology 期刊上。

論文地址：https://www.embopress.org/doi/epdf/10.15252/msb.202211081

使用AlphaFold 2 預(yù)測分子對接

所謂化合物的對接計(jì)算，是將候選化合物列表中的每一個(gè)對接到目標(biāo)蛋白質(zhì)中，生成最有可能結(jié)合的化合物的粗略排序。這個(gè)過程可以在化合物集合上完成，獲得龐大的虛擬庫，這種虛擬篩選已經(jīng)成為計(jì)算化學(xué)領(lǐng)域的長期目標(biāo)。
篩選 218 種大腸桿菌活性化合物研究團(tuán)隊(duì)首先篩選了一組化合物，包含大約 39128 種，其中包括已知****物（已知抗生素）、活性天然產(chǎn)物和一系列其他不同結(jié)構(gòu)，并在針對大腸桿菌的篩選中發(fā)現(xiàn)了 218 種化合物培養(yǎng)物。僅僅有 218 個(gè)陽性，這個(gè)結(jié)果是令人驚訝的，但考慮到抗菌****物發(fā)現(xiàn)工作的難度，這個(gè)數(shù)字也算比較難得了。在 218 種活性化合物中，有大約 80% 是已知抗生素類別中的成員，剩下的部分則是已知細(xì)胞毒性化合物和一些新的通配類型的混合。這為實(shí)驗(yàn)的進(jìn)行提供了一個(gè)很好的背景，因?yàn)樵诖蠖鄶?shù)情況下，我們可以預(yù)測從反向?qū)雍Y選中獲得什么結(jié)果。將活性化合物與預(yù)測的蛋白質(zhì)結(jié)構(gòu)對接接著，團(tuán)隊(duì)研究了這些活性化合物的潛在結(jié)合靶標(biāo)。多年來，在大腸桿菌中進(jìn)行的大量基因組敲除掃描的共識評分已經(jīng)得出了 296 項(xiàng)基本蛋白質(zhì)，所以，可以合理推斷所有真正抑制生長的靶標(biāo)蛋白質(zhì)都可能在這些列表當(dāng)中。作者將 218 種活性化合物中與 AlphaFold 2 預(yù)測出的 296 種基本大腸桿菌蛋白質(zhì)結(jié)構(gòu)進(jìn)行對接，并通過幾種不同的計(jì)算方法，對 218 種化合物與 296 種蛋白質(zhì)的組合進(jìn)行計(jì)算，預(yù)測了 64000 多個(gè)蛋白質(zhì)-配體對的結(jié)合位姿與結(jié)合親和力預(yù)測。

圖注：在 AlphaFold 結(jié)構(gòu)上進(jìn)行分子對接從計(jì)算量來看，這是一個(gè)可靠度相當(dāng)高的測試，尤其是考慮到內(nèi)部控制的數(shù)量（具有已知靶標(biāo)的化合物和在這些靶標(biāo)內(nèi)具有已知結(jié)合構(gòu)象的化合物），這項(xiàng)計(jì)算是很有價(jià)值的。作為對照，研究團(tuán)隊(duì)還從一組化合物中，隨機(jī)選擇了 100 種對細(xì)菌生長完全沒有抑制作用的化合物進(jìn)行相同的計(jì)算，從而獲得對 29600 個(gè)蛋白質(zhì)-配體對的結(jié)合位姿與親和力預(yù)測。

基于 AlphaFold 2 預(yù)測結(jié)構(gòu)的模型性能很弱

雖然這項(xiàng)工作預(yù)測了包括活性和非活性化合物的化合物與蛋白質(zhì)混雜性，但問題是，這些預(yù)測中有多少是假陽性？將模型預(yù)測與已知的抗生素結(jié)合目標(biāo)進(jìn)行比較為了評估所用模型方法的性能，作者將模型預(yù)測與常用抗生素類別的已知相互作用進(jìn)行比較。作者搜集了先前文獻(xiàn)中的抗生素-蛋白質(zhì)靶對，組成一個(gè)包含 142 種抗生素-蛋白質(zhì)相互作用的數(shù)據(jù)集。結(jié)果發(fā)現(xiàn)，他們的模型僅僅正確預(yù)測了 3 種具有強(qiáng)結(jié)合性（即結(jié)合親和力閾值為 -7 kcal/mol ）的相互作用，以及 43 種具有一般結(jié)合性（即結(jié)合親和力閾值為 -5 kcal/mol ）的相互作用。所以，模型預(yù)測的真陽性率分別為 2.1% 和 30.3%。這種比較表明，基于 AlphaFold 2 預(yù)測結(jié)構(gòu)的建模平臺性能很弱。測量 12 種基本蛋白質(zhì)的酶抑制作者接著選取了 12 種基本蛋白質(zhì)，它們可以用于酶促測定，通過測量 218 種活性化合物對這些蛋白質(zhì)的酶抑制，作者對模型預(yù)測的子集進(jìn)行進(jìn)一步的評估。

圖注：所有 218 種活性化合物的平均相對活性，12 種蛋白質(zhì)都經(jīng)過抑制實(shí)驗(yàn)測試。結(jié)合相互作用命中是蛋白質(zhì)-配體相互作用（紅點(diǎn)），所有其他交互都被指定為非命中（灰點(diǎn)）。結(jié)果表明，所有測試中的基本蛋白質(zhì)都被至少四種不同的化合物所抑制，涵蓋從強(qiáng)到弱的一系列結(jié)合親和力閾值，基于 AlphaFold 2 的模型所預(yù)測的對接顯示出了廣泛的混雜性。模型的基準(zhǔn)測試最后，作者對建模平臺的性能進(jìn)行了統(tǒng)計(jì)基準(zhǔn)測試?；诿敢种茰y量數(shù)據(jù)，作者將實(shí)驗(yàn)觀察到的結(jié)合相互作用命中與他們預(yù)測的相互作用進(jìn)行比較，結(jié)合親和力閾值設(shè)定為小于 -5 kcal/mol 和 -7 kcal/mol。結(jié)果發(fā)現(xiàn)，更強(qiáng)結(jié)合性的親和力閾值會導(dǎo)致更少的結(jié)合相互作用預(yù)測，此時(shí)真陽性率更低，準(zhǔn)確性更高。模型性能根據(jù)所設(shè)定的結(jié)合親和力閾值從弱到中等變化。作者又在獨(dú)立于結(jié)合親和力閾值的條件下，使用接受者操作特征曲線 (ROC) 和精確召回曲線 (PR) 再次進(jìn)行評估，也都表明模型性能較弱。總之，模型的預(yù)測結(jié)果中不僅存在大量假陽性（即非活性化合物被預(yù)測為與關(guān)鍵細(xì)菌蛋白質(zhì)的活性位點(diǎn)結(jié)合），而且還有大量的假陰性（即已知存在相互作用，但沒有被發(fā)現(xiàn)）。只有達(dá)到最嚴(yán)格的結(jié)合親和力閾值時(shí)，模型才會比隨機(jī)預(yù)測表現(xiàn)得略好一些。

AlphaFold 本身沒錯，用好機(jī)器學(xué)習(xí)方法是關(guān)鍵

接下來的問題是，模型的弱性能是由 AlphaFold2 所提供的蛋白質(zhì)結(jié)構(gòu)質(zhì)量導(dǎo)致的嗎？
問題出自對接方法而非蛋白質(zhì)結(jié)構(gòu)質(zhì)量為了驗(yàn)證這個(gè)問題，作者將 218 種活性化合物與八種實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)中的每一種對接進(jìn)行了重復(fù)的對接模擬，并同樣對模型性能進(jìn)行了基準(zhǔn)測試，結(jié)果是 auROC 值在數(shù)量上與先前相似，范圍從 0.25 ( glmU ) 到 0.69 ( gyrAB )，平均值為 0.46。auPRC 值也發(fā)現(xiàn)了類似的結(jié)果，范圍從 0.03 ( ligA ) 到 0.56 ( gyrAB )，平均值為 0.22。這些發(fā)現(xiàn)表明，使用 AlphaFold2 預(yù)測結(jié)構(gòu)的分子對接與使用實(shí)驗(yàn)確定的結(jié)構(gòu)是類似的。這也與之前對 AlphaFold 對實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)的保真度評估一致，由此可以得出，模型的性能弱是因?yàn)閷臃椒ǖ脑?，而不是蛋白質(zhì)結(jié)構(gòu)的質(zhì)量差。使用機(jī)器學(xué)習(xí)方法可改進(jìn)模型性能基于分子對接的弱性能問題，研究團(tuán)隊(duì)探索了可以提高性能的方法。研究中使用了四種不同的基于機(jī)器學(xué)習(xí)的評分函數(shù)，分別是 RF-Score 、RF-Score-VS、PLEC score 和 NNScore，以對模型性能進(jìn)行基準(zhǔn)測試和改進(jìn)。相比于 RF-Score 和 RF-Score-VS - RF-Score 的虛擬篩選適應(yīng)性--利用隨機(jī)森林或決策樹的組合來預(yù)測蛋白質(zhì)與配體的結(jié)合親和力，PLEC score 采用了蛋白質(zhì)-配體對之間的擴(kuò)展連接指紋，NNScore 是基于神經(jīng)網(wǎng)絡(luò)的集合。作者在研究中采用了評分函數(shù)，使用 PDBbind v2016 或有用的誘餌目錄對增強(qiáng)（DUD-E）數(shù)據(jù)庫進(jìn)行訓(xùn)練，以重新評估 AutoDock Vina 預(yù)測的對接姿勢。此外，研究使用 DOCK6.9 和應(yīng)用于 AutoDock Vina 姿勢的每個(gè)基于機(jī)器學(xué)習(xí)的評分函數(shù)，還預(yù)測了每種抗菌化合物與 12 種經(jīng)驗(yàn)測試必需蛋白中每一種之間的結(jié)合親和力，并對每種方法的性能進(jìn)行基準(zhǔn)測試。測試結(jié)果發(fā)現(xiàn)，平均 auROC 值在 0.46 和 0.63 之間（下圖 A）。其中，與 DOCK6.9 對接并使用 PLEC score 對 AutoDock Vina 姿勢進(jìn)行重新評分平均，導(dǎo)致 auROC 值低于單獨(dú)使用 AutoDock Vina 的結(jié)果，DOCK6.9 的 auROC 值為為 0.46（范圍為 0.25 至 0.61）和 0.47（范圍 PLEC score 為 0.28 至 0.63）（下圖 A）相比之下，使用 RF-Score、RF-Score-VS 或 NNScore 對 AutoDock Vina 姿勢進(jìn)行重新評分可提高模型性能，平均 auROC 值分別為 0.62（范圍為 0.53 至 0.69）、0.63（范圍為 0.46 至 0.75）和 0.58（范圍為 0.41 到 0.69）。研究結(jié)果也與 auPRC 相似，當(dāng)使用 RF-Score 重新評分時(shí)，其平均值高達(dá) 0.24。這些模型性能評估表明，某些基于機(jī)器學(xué)習(xí)的評分函數(shù)提高了預(yù)測準(zhǔn)確性。

圖注：使用機(jī)器學(xué)習(xí)對模型性能進(jìn)行基準(zhǔn)測試和改進(jìn)。A. 在不同的分子對接程序和不同的基于機(jī)器學(xué)習(xí)的姿勢評分函數(shù)。白點(diǎn)表示平均值；灰色條表第25-75個(gè)百分位值的范圍；灰色箱線圖須線表示不被視為異常值的值范圍；0.5 處的水平線表示隨機(jī)預(yù)測生成的基準(zhǔn)。B. 通過在 AutoDock Vina 應(yīng)用基于機(jī)器學(xué)習(xí)的重新評分函數(shù)建模的蛋白質(zhì)-配體對的排序結(jié)合親和力。曲線根據(jù) (A) 中使用的重新評分函數(shù)著色；陰影區(qū)域表示 > 7 的結(jié)合親和力閾值。C-E. 預(yù)測準(zhǔn)確性、預(yù)測陽性數(shù)（蛋白質(zhì)-配體相互作用）和真陽性率/假陽性率對所用模型數(shù)量的依賴性。群體智慧方法可提高預(yù)測準(zhǔn)確性由于某些基于機(jī)器學(xué)習(xí)的評分函數(shù)會增加 auROC 和 auPRC，研究還探討了在嚴(yán)格限制結(jié)合親和力閾值的情況下，結(jié)合“群體智慧”方法使用重新評分模型，是否可以提高預(yù)測準(zhǔn)確性和真陽性率。作者將預(yù)測的蛋白質(zhì)-配體相互作用，定義為滿足所有模型的結(jié)合親和力閾值，并將 AutoDock Vina 預(yù)測與上述四種基于機(jī)器學(xué)習(xí)的評分函數(shù)的預(yù)測相結(jié)合；研究通過使用這種共識方法發(fā)現(xiàn)，預(yù)測準(zhǔn)確性可隨著使用的模型數(shù)量而提高（上圖 C），這同預(yù)測的蛋白質(zhì)-配體相互作用數(shù)量的相應(yīng)減少預(yù)期一致（上圖 D）。與此同時(shí)，真陽性率與假陽性率的比率則是隨使用模型數(shù)量的增加而增加，在預(yù)期之外（上圖 E）。可以看到，該結(jié)果同使用某些基于機(jī)器學(xué)習(xí)的評分函數(shù)提高預(yù)測能力的發(fā)現(xiàn)一致，這也進(jìn)一步表明了，將分子對接與基于機(jī)器學(xué)習(xí)的模型結(jié)合起來，可以讓人們更好地利用 AlphaFold2 預(yù)測的蛋白質(zhì)結(jié)構(gòu)進(jìn)行****物篩選。所以，一些機(jī)器學(xué)習(xí)方法確實(shí)可以提高了預(yù)測的準(zhǔn)確性。不過，這只是部分的成功，當(dāng)前研究所用的數(shù)據(jù)集中有很多已經(jīng)確定的蛋白質(zhì)和化合物的實(shí)驗(yàn)事實(shí)，如果涉及那些較少被關(guān)注的領(lǐng)域，這些方法是否仍然奏效就不可知了。雖然 AlphaFold 為我們提供了大量且合理的蛋白質(zhì)結(jié)構(gòu)，但我們實(shí)現(xiàn)它的價(jià)值的能力還非常有限。所以至少在目前看來，“AlphaFold 將徹底改變****物發(fā)現(xiàn)”的說法還尚待證實(shí)，成功還在未來。參考鏈接：https://www.science.org/content/blog-post/not-alphafold-s-fault

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

相關(guān)推薦

EEPW2018年6月刊(5G)

資源下載 5G AI | 2018-06-11

WTC-AI型太陽能熱水器電路圖

設(shè)計(jì)方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

蘋果表示其AI模型是在谷歌的定制芯片上訓(xùn)練的

智能計(jì)算 AI | 2024-07-30

WTC-AI太陽能熱水器電路圖

設(shè)計(jì)方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

AI+機(jī)器視覺成趨勢，圖文詳解N大應(yīng)用場景

智能計(jì)算安森美 AI 機(jī)器視覺 | 2024-07-31

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

iCAN-4017 AI功能模塊

資源下載周立功單片機(jī) 功能模塊 iCAN-4017 AI | 2007-03-30

繼上次海聯(lián)達(dá)Ai-ap100拆機(jī)之電源改造

zhuwei0710 | 2013-04-03

海聯(lián)達(dá)（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計(jì)算 GB200 AI 英偉達(dá) GPU | 2024-07-26

釋說芯語16：硬科技：構(gòu)建企業(yè)未來之路（附PPT）

jackwang | 2018-10-22

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計(jì)算 AI 奧運(yùn)會體育 | 2024-07-26

深圳加快打造 AI 先鋒城市，今年將建成 4000PFLOPS 算力智算中心

智能計(jì)算 AI 智能計(jì)算深圳 | 2024-07-30

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機(jī)器人 | 2021-02-26

攻擊成功率從 3% 到接近 100%，利用空格鍵可繞過 Meta AI 模型安全系統(tǒng)

智能計(jì)算 Meta AI | 2024-07-31

瑞薩電子AI單元解決方案成功提高GE醫(yī)療（日本）日野工廠的生產(chǎn)力

winni945 | 2018-09-12

萬家樂JSYZ5-AI燃?xì)鉄崴麟娐穲D

設(shè)計(jì)方案電路圖熱水器 JSYZ5-AI 萬家樂 | 2013-01-17

CSR8670CSR8675智能語音Alexa藍(lán)牙方案開發(fā)

資源下載 AI 智能語音 | 2017-12-14

Nvidia的CEO談AI的未來：“我們將需要三臺電腦... 一臺來創(chuàng)建AI... 一臺來模擬AI... 一臺來運(yùn)行AI”

智能計(jì)算 AI | 2024-07-31

iPhone 16將不會預(yù)裝AI功能？計(jì)劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

人工智能是如何幫助阻止造假者的？

謝丫丫 | 2018-08-14

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計(jì)算蘋果 AI 谷歌定制芯片 | 2024-07-30

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

EEPW2018年3月刊(工業(yè)物聯(lián)網(wǎng))

資源下載工業(yè)物聯(lián)網(wǎng) AI | 2018-03-12

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計(jì)算教育 AI 集成電路 | 2024-07-25

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)