科學匠人|秦濤:以獨立、深度的視角看世界,做有意義、創(chuàng)新的研究
編者按:NeurIPS 2021大會剛剛結(jié)束。在今年的大會上,微軟亞洲研究院共有22篇論文入選,而其中的8篇都有微軟亞洲研究院首席研究員秦濤的參與。自加入微軟亞洲研究院以來,秦濤已在 NeurIPS、ICML、ICLR、IJCAI、AAAI、CVRP 等業(yè)界頂級期刊、會議上發(fā)表了100余篇論文,他所帶領(lǐng)的團隊也在2018年將中-英機器翻譯提升至人類專業(yè)水平,在2019年國際機器翻譯大賽上獲得8項冠軍,并且還開發(fā)了迄今為止最強大的麻將 AI 系統(tǒng) Suphx,所研發(fā)的語音合成技術(shù)被廣泛應用于微軟 Azure 認知服務、Windows 等多個微軟核心產(chǎn)品和服務中。如何持續(xù)不斷地產(chǎn)出高質(zhì)量的科研創(chuàng)新成果?或許你可以從秦濤的科研經(jīng)歷中獲得一份“錦囊”。
在 NeurIPS 2021大會上,微軟亞洲研究院首席研究員秦濤博士參與的論文有8篇被收錄,成為本屆大會收錄論文數(shù)最高的研究員之一。其中一篇論文重新審視了深度學習中廣泛使用的 Dropout 算法,針對其訓練和測試階段的不一致性提出了改進算法 R-Drop;另一篇擯棄了傳統(tǒng)生成式建模中由一個過于簡化的邊緣(先驗)分布加一個條件分布來確定兩個隨機變量聯(lián)合分布的做法,提出了由兩個條件分布來確定聯(lián)合分布的理論,從而避免了使用因過于簡化而與實際不符的邊緣分布,并基于此理論提出了一個全新的生成式建模模式 CyGen。R-Drop 的論文體現(xiàn)了科研人員對已有技術(shù)的反思與獨立思考能力,而 CyGen 的文章則更具原創(chuàng)性,反映了科研思維的深度。秦濤說,“做研究時,碰到別人習以為常的事情,我們需要思考那樣做是否有道理,是否可以改進,從而培養(yǎng)自己獨立思考、深度思考的習慣?!?/p>
微軟亞洲研究院首席研究員秦濤
事實上,不僅是在今年的 NeurIPS 大會上秦濤和團隊“盆缽滿盈”,自加入微軟亞洲研究院以來,秦濤已在頂級期刊、會議上發(fā)表了100余篇論文。同時,他所帶領(lǐng)的團隊近年來也在學術(shù)界、產(chǎn)業(yè)界屢獲佳績,不少科研成果已被廣泛應用。
究竟是怎樣的“魔力”可以讓秦濤在研究中另辟蹊徑,不斷提出新問題,應對新挑戰(zhàn),創(chuàng)造無限可能?
加入微軟亞洲研究院是不二選擇
2008年,秦濤正式加入了微軟亞洲研究院,但在此之前他已經(jīng)是這里的一名“老員工”了。2003年,還在讀碩士的秦濤來到微軟亞洲研究院實習,一直到博士畢業(yè)。期間,秦濤還曾作為優(yōu)秀實習生受邀到比爾·蓋茨家參加活動。“微軟亞洲研究院是當時國內(nèi)最好的計算機科學研究機構(gòu)。五年的實習時間已經(jīng)讓我體會到了研究院自由的研究環(huán)境和學術(shù)氛圍?!鼻貪f,“這里擁有眾多優(yōu)秀的研究人員和實習生,與其單打獨斗,研究院更鼓勵我們共同合作創(chuàng)新。所以畢業(yè)后,我沒有考慮其他選擇,毫不猶豫地加入了微軟亞洲研究院。”
2007年微軟亞洲研究院優(yōu)秀實習生合影(右一:秦濤)
從實習生到正式的研究員,秦濤的研究方向發(fā)生了多次轉(zhuǎn)換。實習初期秦濤主要從事圖像檢索方面的研究,利用 SVM、Boosting 或決策樹等技術(shù)處理人工設(shè)計特征(比如直方圖、紋理分布、SIFT 等)。2005年,微軟意識到了互聯(lián)網(wǎng)搜索的發(fā)展前景,開始布局搜索引擎業(yè)務。于是,秦濤和團隊開始集中精力于互聯(lián)網(wǎng)搜索的研究。
全情投入很快得到了回報,在同年信息檢索領(lǐng)域的頂級學術(shù)大會 SIGIR 收錄的75篇論文中,有15篇來自微軟亞洲研究院,占比20%?!拔覀兠總€人都穿著同樣的T恤,合影時不斷引來大家的關(guān)注和稱贊,‘你們(微軟亞洲研究院)來了這么多人呀‘”,回憶起當年參會的場景,秦濤依舊難掩興奮之情。這次經(jīng)歷讓秦濤倍感榮耀,也讓他感受到了微軟亞洲研究院在全球計算機科研界的實力與位置。
2005年,秦濤參加 SIGIR 大會
互聯(lián)網(wǎng)搜索工作的持續(xù)進步,以及與產(chǎn)品團隊的深入合作,讓秦濤又將目光對準了互聯(lián)網(wǎng)廣告的研究。不同于互聯(lián)網(wǎng)搜索中只對網(wǎng)頁進行正常排序,互聯(lián)網(wǎng)廣告則需要將優(yōu)質(zhì)的廣告和用戶的查詢詞按相關(guān)度排序,以提升用戶的體驗。于是秦濤和同事們開始著手于廣告點擊率預測的相關(guān)研究,并拓展到廣告拍賣機制的設(shè)計和改進,以實現(xiàn)必應(Bing)廣告業(yè)務的優(yōu)化。其實無論是圖文檢索、互聯(lián)網(wǎng)搜索,還是廣告排序,都是機器學習技術(shù)的應用,這些積累也讓秦濤及團隊看到了深度學習、深度神經(jīng)網(wǎng)絡等技術(shù)的潛力,為后來秦濤團隊在機器翻譯、語音合成、語音識別、強化學習等領(lǐng)域的突破性創(chuàng)新奠定了基礎(chǔ)。
創(chuàng)新對偶學習,帶來更多可能性
隨著對機器學習技術(shù)的深入研究,秦濤團隊發(fā)現(xiàn)很多實際應用中的機器學習任務的輸入輸出互為對偶,比如機器翻譯中的中翻英任務和英翻中任務,語音處理中的語音合成任務(從文本到語音)和語音識別任務(從語音到文本),圖文處理中的“看圖說話”任務(從圖像生成文本)和基于文本的圖像生成任務。利用這種機器學習任務之間輸入輸出的對偶屬性可以對無標注數(shù)據(jù)進行學習,提升機器學習算法特別是深度學習算法的性能。
這就是由秦濤團隊2016年提出,今天已為業(yè)界所熟知的機器學習新范式——對偶學習。對偶學習思想最關(guān)鍵的地方在于,給定一個原始任務模型,它的對偶任務模型可以給其提供反饋;同樣的,給定一個對偶任務的模型,其原始任務模型也可以給該對偶任務的模型提供反饋,從而這兩個互為對偶的任務可以相互提供反饋,相互學習,共同提高。
最初,對偶學習只為解決機器翻譯任務,后來逐漸應用于更廣泛的領(lǐng)域,包括機器問答、語音識別、語音合成,甚至是圖像風格的轉(zhuǎn)換,比如將圖像從梵高風格轉(zhuǎn)換成其他畫家的風格,將山水畫轉(zhuǎn)變?yōu)橛彤?,等等。對偶學習還可以用于智能代碼生成任務,同時提高代碼注釋與代碼生成的性能。
值得一提的是,得益于對偶學習,秦濤團隊助力微軟機器翻譯在2018年中-英機器翻譯中達到了媲美人類專業(yè)翻譯的水平,并在2019年的機器翻譯比賽中獲得了8項機器翻譯冠軍。2020年,秦濤和同事們還將對偶學習編寫成書,讓更多人了解和使用這一技術(shù)。
《Dual Learning(對偶學習)》
對偶學習從技術(shù)上講并不是特別困難,而在于換個角度看問題,把具有對偶屬性的兩個任務放在一起聯(lián)合學習,利用兩個模型的輸入輸出形成反饋閉環(huán),這不同于傳統(tǒng)的單任務學習范式,也不同于近年來的多任務學習。秦濤總結(jié)到,“更重要的是創(chuàng)新性思維,能否從一個全新的視角看問題,做到這一點就不難發(fā)現(xiàn)一片新的天地?!?/p>
做有意義的研究:小語種機器翻譯
讓秦濤擁有成就感的研究項目不少,但其中有一項工作意義尤為特殊——低資源機器翻譯。就在前不久,微軟翻譯突破了百種語言和方言大關(guān)?!耙黄?00種語言的契機和靈感來源于奧運會,”秦濤介紹道,“我們發(fā)現(xiàn)2020年東京奧運會的官方網(wǎng)站上只提供了7種語言支持,而參賽的國家卻有200多個。若要在語言翻譯方面更加充分地體現(xiàn)奧林匹克的共贏精神,還需要技術(shù)的進一步助力?!彪m然機器翻譯的水平隨著人工智能技術(shù)的進展在不斷提高,但縱觀市面上的翻譯技術(shù)和產(chǎn)品,大多專注于訓練資源更加豐富大語種,而忽略了低資源的小語種。但事實是,使用小語種的國家和人群屬于經(jīng)濟欠發(fā)達行列的占比更大,他們更需要獲取新信息、新知識、新技術(shù)。
“我們的目標是‘一個也不能少’,希望所有奧運參賽國的運動員和受眾不僅可以在機器翻譯技術(shù)的幫助下更好地參加和觀看奧運會,還可以了解到世界上更多的前沿信息。這個項目可能并不能帶來巨大的商業(yè)價值,我們也不是為了發(fā)表論文,我們更希望的是我們的技術(shù)可以幫助小語種使用者打開視野,打破人類語言交流的障礙,這類研究非常有意義。”
將想法付諸于行動后,秦濤和研究院以及產(chǎn)品部門的同事們一起利用對偶學習、預訓練等技術(shù),克服了小語種使用范圍小、學習語料少的困難,在近期為微軟翻譯又添加了14種語言和方言翻譯,包括美尼亞語、阿塞拜疆語、藏語、高棉語、蒂格里尼亞語、阿姆哈拉奇語、老撾語、****語、尼泊爾語、土庫曼語、蒙古語(西里爾文字)、蒙古語(傳統(tǒng)文字)、維吾爾語和烏茲別克語(拉丁文字)。目前微軟翻譯已支持103種語言和方言的翻譯。
語音合成實現(xiàn)“秒殺”
除了將機器學習的強大優(yōu)勢應用在語言翻譯方面,秦濤和團隊還積極探索機器學習在語音合成上的更多可能性。盡管深度神經(jīng)網(wǎng)絡近年來已被學術(shù)界所認可,應用在語音合成方面也有不錯的效果,但秦濤和同事們發(fā)現(xiàn)模型的運行非常慢,即使使用 V100這種在2019年性能最佳的 GPU 也達不到實時的效果——一句5秒鐘的話,機器卻無法在5秒內(nèi)合成語音。而通過不斷增加 GPU 來完成任務,其成本是無法承擔的,因此用戶也無法受益于最新的機器學習技術(shù)。為此,秦濤團隊和浙江大學聯(lián)合推出了 FastSpeech 算法,將梅爾譜的生成速度提高了近270倍,讓端到端平均合成一條5秒鐘語音的時間達到0.18秒,單 GPU 上的語音合成速度達到了實時語音速度的30倍。
FastSpeech 網(wǎng)絡架構(gòu)
如今,F(xiàn)astSpeech 算法已經(jīng)在微軟的產(chǎn)品中大范圍應用,包括 Teams、Skype、Windows、Azure 中的所有語音合成服務,現(xiàn)在微軟的語音合成(TTS)服務已支持超過110種語言和270多種語音。
在開放、包容、多元的研究環(huán)境中成長
從2003年的實習生,到2008年的正式研究員,再到今天的首席研究員,角色的變化讓秦濤感受責任的不同?!霸趯嵙暺陂g,我主要集中精力于做實驗、寫論文;而成為正式的研究員后,我思考的更多的是研究的價值和意義,如何與同事們一起完成‘頂天立地’的研究?!鼻貪忉尩?,頂天就是要做最前沿的研究,例如研究院近年來鼓勵的 AI+科學的交叉研究方向;立地則是要做有用的研究,希望我們的技術(shù)能夠通過改進微軟的產(chǎn)品,造福所有用戶。
在微軟亞洲研究院工作的18年讓秦濤愈發(fā)感受到了開放、協(xié)作、多元、包容文化對創(chuàng)新型研究的促進作用。為了推動跨領(lǐng)域交流和交叉學科的研究,微軟亞洲研究院引入了各領(lǐng)域的優(yōu)秀人才,同時還會不定期地組織交流分享活動。秦濤負責組織的“大師論壇”會邀請公司內(nèi)外部專家分享跨領(lǐng)域的專業(yè)知識和洞察?!霸谂c不同專業(yè)背景的同事合作研究的過程中,我們會有不認同、質(zhì)疑對方的時刻,但是很多新的思想正是在碰撞中產(chǎn)生的;對于一致認同的想法,我們會共同讓想法落地;對于新的觀點,也會嘗試驗證,提出新的算法、范式,不斷推進研究工作。”在秦濤看來,求同存異對于研究創(chuàng)新至關(guān)重要。
秦濤與團隊成員開會探討研究進展(右三:秦濤)
此外,當有實習生提出新想法時,秦濤會鼓勵大家從一開始就將想法提煉成一兩頁的書面文檔。這樣做不僅能理清思路,為后續(xù)研究工作形成論文打好基礎(chǔ),更重要的是可以把想法在初期就分享給其他人,及時獲取反饋、建議和質(zhì)疑,從而確保工作在起步階段就可以站在巨人的肩膀上。秦濤還強調(diào),做研究并不是為了發(fā)論文,發(fā)論文是為了做更好的、有意義的研究,只有好的研究工作才值得發(fā)論文。
業(yè)余時間,秦濤喜歡讀書。為了拓寬自己的視野,他讀書的范圍并不局限于專業(yè)領(lǐng)域。最近秦濤正在讀《后疫情時代的中國經(jīng)濟》和《人類進化史》兩本書。秦濤認為,雖然這些書對自己的專業(yè)研究沒有直接的幫助,但卻可以讓自己看得更遠、更深,和微軟一起更好地承擔起社會責任。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
pid控制器相關(guān)文章:pid控制器原理