北京大學高歌:21世紀的生命科學屬于數(shù)據(jù)科學丨獨家專訪
高歌現(xiàn)為北京大學生物醫(yī)學前沿創(chuàng)新中心 (BIOPIC)、北京未來基因診斷高精尖創(chuàng)新中心 (ICG)、生物信息中心 (CBI) 暨蛋白質(zhì)與植物基因研究國家重點實驗室研究員、博士生導師。他長期從事新一代的生物信息方法和技術(shù)研究,其團隊正在基于大數(shù)據(jù)、統(tǒng)計學習等計算方法和單細胞多組學技術(shù),深入挖掘和整合高通量生物數(shù)據(jù),在單細胞水平上精準解析細胞調(diào)控圖譜并探索其在生物醫(yī)****領(lǐng)域的應用方向。
他形象地將其團隊從事的事情描述為科學地 “看相” 和 “算命”,即利用計算的方法解析生物大數(shù)據(jù)中蘊含的新生命規(guī)律。具體來說就是基于基因組、轉(zhuǎn)錄組等大規(guī)模組學測量數(shù)據(jù) (科學 “看相”),通過多種計算方法有效挖掘、整合、建模,發(fā)現(xiàn)新現(xiàn)象、總結(jié)新規(guī)律,形成對生命過程的統(tǒng)一解析和理解,進而將其應用于生物醫(yī)****領(lǐng)域的診治中,實現(xiàn) “科學算命”。 其技術(shù)路線可以總結(jié)為 “數(shù)據(jù)導向”(Data-Oriented)、“方法驅(qū)動”(Methodology-Driven)、“干濕結(jié)合”(in silico for in vivo)。 細胞是構(gòu)成生命的基本單元,細胞中多種調(diào)控機制造就了機體中功能形態(tài)豐富多樣的細胞群體,并進而構(gòu)成了早期發(fā)育、腫瘤發(fā)展等多種關(guān)鍵生理病理現(xiàn)象的生物學基礎(chǔ)。而現(xiàn)階段,要實現(xiàn) “科學看相” 和 “科學算命”,核心工作就在于精準解析細胞調(diào)控圖譜。 “隨著近年來以單細胞多組學數(shù)據(jù)為代表的新一代測量數(shù)據(jù)爆發(fā)式增長,以深度學習、因果推斷等為代表的統(tǒng)計建模方法不斷取得新進展,以及以混合計算、彈性計算等為代表的計算技術(shù)快速鋪開,我們有望在近期內(nèi)精準解析人類細胞調(diào)控圖譜?!?/span>
“21 世紀的生命科學正在進入數(shù)據(jù)科學時代,生命科學的整體研究方法或者研究思路很大程度上都將隨著數(shù)據(jù)量的快速增長而變化,這種改變將會帶來巨大、深遠的影響?!?高歌說。 如何在海量的生物學數(shù)據(jù)中有效挖掘新的生物學知識是利用計算方法解析生命的關(guān)鍵,而無論是新型的深度學習模型、還是經(jīng)典的統(tǒng)計學習方法,都高度依賴高質(zhì)量的生物學數(shù)據(jù)。近年來,單細胞多組學測量技術(shù)的快速發(fā)展是獲取高維度生物數(shù)據(jù)的關(guān)鍵之一。
單細胞多組學測量技術(shù)是指對單個細胞包含的基因組、表觀基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等組學信息進行測量分析,從而獲得單個細胞在多個層面的運作狀態(tài)。 在此基礎(chǔ)上,科研人員可以進一步開發(fā)新的計算方法,從多個層面分析細胞,整合和解讀不同層面的數(shù)據(jù),以全面理解細胞的組成成分和運作機制。進一步地,在臨床上,多組學數(shù)據(jù)能夠幫助人們理解細胞在病理狀態(tài)和生理狀態(tài)之間的差異,并精準鎖定診斷標志物和治療性靶點。 “作為近年來生命科學技術(shù)領(lǐng)域最大進展之一的單細胞多組學技術(shù)正在蓬勃發(fā)展。隨著多組學技術(shù)產(chǎn)生的數(shù)據(jù)量持續(xù)增長,我們在歷史上第一次有可能從整體上構(gòu)建細胞調(diào)控圖譜,進而在單細胞水平上對基因表達調(diào)控及其生理、病理結(jié)果進行精準解析,并最終實現(xiàn)在計算機中建立細胞調(diào)控的高精度模型,構(gòu)造 Virtual Cell。” 高歌說。
“在生命科學領(lǐng)域,數(shù)據(jù)本身具有不可忽視的價值。然而,產(chǎn)生海量數(shù)據(jù)只是第一步;只有發(fā)展新的計算技術(shù)與方法解析、挖掘這些寶貴的數(shù)據(jù),才能發(fā)現(xiàn)新的生物學現(xiàn)象與規(guī)律,并進而將其運用于生物醫(yī)學的實踐中?!?高歌說。 “數(shù)據(jù)導向,方法驅(qū)動” 是高歌團隊的核心研究路線。高歌相信,方法學(方法特指計算方法)的進步是獲得新發(fā)現(xiàn)的有效途徑,并將為從根本上提升對生命系統(tǒng)的理解提供全新的視角與可能。 有鑒于此,該團隊近年來圍繞生物數(shù)據(jù)的解析、挖掘與整合,開發(fā)了一系列生物信息學新方法與新技術(shù)。截止目前,其團隊已自主研發(fā) 10 余款生物信息新算法軟件和數(shù)據(jù)庫,外部有效訪問量累計逾 10 億次。
具體來說,高歌團隊已經(jīng)開發(fā)出了多款深度學習模型和組件,包括最新發(fā)表的新型卷積層 vConv、新型池化層 ePooling、單細胞轉(zhuǎn)錄組數(shù)據(jù)整合和注釋的新方法 Cell BLAST 等。據(jù)介紹,其基本思路是根據(jù)生物數(shù)據(jù)特點,針對現(xiàn)有深度學習模型或者組件進行調(diào)整和優(yōu)化,進而從底層重構(gòu)一套適用于生物學的深度學習框架。
高歌告訴生輝,對于一個計算模型的評價可以從兩個方面來看,一是計算模型本身的性能;二是可解釋性,也就是幫助科學家理解生物數(shù)據(jù)中所蘊含的信息與知識的能力。 今年 7 月,該團隊在線發(fā)表最新深度學習組件 —— 基于自適應卷積核的新型卷積層 vConv。標準卷積神經(jīng)網(wǎng)絡的卷積核長度通常是固定的,但是在生物信號檢測過程中,信號本身的長度并不固定?;诖?,該團隊針對生物醫(yī)****領(lǐng)域的數(shù)據(jù)對卷積神經(jīng)網(wǎng)絡里的常用卷積層進行了改良。 高歌告訴生輝,該模型最大的創(chuàng)新之處在于通過針對細分領(lǐng)域的數(shù)據(jù)特點設(shè)計深度學習組件,將標準卷積神經(jīng)網(wǎng)絡中長度固定的卷積核變?yōu)榭勺詣诱{(diào)整長度的卷積核。 ePooling 則是該團隊開發(fā)的一種具有明確概率可解釋性的新型池化層,它從概率可解釋性出發(fā),通過理性設(shè)計,對當前主流的池化方法進行了改進,不僅提升了可解釋性、也提高了性能。 2020 年 7 月,該團隊在 Nature Communications 上發(fā)表了一種基于深度對抗學習模型的數(shù)據(jù)檢索和注釋新方法 ——Cell BLAST,和一個高質(zhì)量單細胞轉(zhuǎn)錄組參考數(shù)據(jù)庫 ACA。今年3月,這項研究入選了《基因組蛋白質(zhì)組與生物信息學報》評選的 2020 年度 “中國生物信息學十大進展”。
在比較跨數(shù)據(jù)集時,批次效應往往會降低預測的準確性和可靠性,并影響現(xiàn)有數(shù)據(jù)的利用,借助對抗學習方法,Cell BLAST 可以有效地消除數(shù)據(jù)之間的批次效應。此外,Cell BLAST 還能夠發(fā)現(xiàn)存在于用戶提交的待查數(shù)據(jù)集、但不存在于 ACA 參考數(shù)據(jù)集中的細胞類型。 據(jù)悉,該團隊還在開發(fā)深度學習模型 GLUE 以整合包括轉(zhuǎn)錄組、表觀組、蛋白質(zhì)組等在內(nèi)不同維度的單細胞多組學數(shù)據(jù),最新研究結(jié)果近期已刊登于預印本網(wǎng)站 bioRxiv 上。
今年是高歌加入北京大學的第 10 個年頭。目前,高歌團隊的工作專注于構(gòu)建解析細胞調(diào)控圖譜,并探索其在早期發(fā)育、消化道腫瘤和免疫相關(guān)疾病上的應用潛力。 科研成果更大的意義是走向轉(zhuǎn)化應用,真正為生命科學行業(yè)以及應用帶來變革。對于科研轉(zhuǎn)化落地,高歌也有自己的想法。 “從落地角度來看,我們希望可以找到更有意義和價值的應用場景和方向。對于具體應用方向,我們需要考慮自己能夠為行業(yè)提供哪些具有長期價值、長期競爭優(yōu)勢的科研成果。” 高歌說。 雖然還沒有具體的規(guī)劃,但是該團隊現(xiàn)階段也有了一些前期的考慮和計劃。高歌認為,現(xiàn)階段多組學技術(shù)已經(jīng)應用于精準醫(yī)學研究,預計未來 5 年可能會進一步應用于精準醫(yī)學臨床診斷與治療。
目前在產(chǎn)前診斷、靶向用****等領(lǐng)域廣泛應用的遺傳篩查仍主要基于對疾病易感基因遺傳變異的檢測,然而,不完全外顯 (reduced penetrance, 即基因型有缺陷的前提下沒有表型上的變化) 等情形會嚴重影響最終診斷的信度與效度。 高歌告訴生輝,現(xiàn)在實驗室的一項工作就是降低遺傳疾病診斷的誤差,現(xiàn)已初步獲得了一些可以降低誤差的發(fā)現(xiàn)。 目前高歌團隊仍將以基礎(chǔ)科研為主,不過他們正在探索場景落地的可能性。高歌繼續(xù)補充,“如果要找到具有長期價值的方向,我覺得需要與高校的技術(shù)創(chuàng)新能力結(jié)合起來。從基礎(chǔ)到應用的過程中,高校往往聚焦于 0-1 的階段,大型企業(yè)會專注于 100-10000,而我們希望能著眼于填補 1-100 之間的空白。”
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。