王曉雷:從自動駕駛看人工智能的能與不能
近年來,結合了感知、融合、決策、控制的自動駕駛技術無疑是近年最火的研發(fā)領域之一。這得益于現(xiàn)在人工智能技術的發(fā)展,但是在ThoughtWorks大數(shù)據(jù)團隊首席科學家王曉雷看來,人工智能不是萬能的,深度學習也可能被“愚弄”。
本文引用地址:http://cafeforensic.com/article/201807/383346.htm在近日舉行的2018 ThoughtWorks技術雷達峰會上,王曉雷進行了主題為《自動駕駛——人工智能的能與不能 》的演講,并結合自動駕駛技術的最新發(fā)展,分享了我們對于真實世界中,關于智能算法的長處和局限性的一些思考。
從備受爭議的自動駕駛談起
2015年5月,工信部發(fā)表《中國制造2025》,將智能車聯(lián)網(wǎng)提升到國家戰(zhàn)略高度。至今三年時間里,各項政策層出不窮,甚至開放了包括北京上海的部分道路在內(nèi)的一部分路段作為路測。然而,近來,自動駕駛汽車的安全與倫理一直備受爭議,不僅發(fā)生了幾起令人側(cè)目的特斯拉自動駕駛系統(tǒng)事故,還在2018年3月發(fā)生一起致命事件。在該起致命事件中,Uber自動駕駛車輛與行人之間發(fā)生碰撞并導致行人死亡。這讓人們不禁關注起自動駕駛技術的敏捷度、安全性、以及車企如何能夠保證它萬無一失。
王曉雷表示, 比起完全信息博弈,自動駕駛更像是一場司機與環(huán)境的對話。這里面涉及眾多環(huán)節(jié)。比如定位與映射;場景理解;路徑規(guī)劃;狀態(tài)感知等等 。
如此復雜的流程必須依靠包括深度學習在內(nèi)的人工智能技術進行支撐,機器通過大量數(shù)據(jù)的采集與特征提取,在一定算法的基礎上自主的完成優(yōu)化和改進,從而最終得出一個具有統(tǒng)計學意義的結果。這個統(tǒng)計學結果的得出其實是值得探討的。由于包括數(shù)據(jù)量不足和模型本身的種種限制,深度學習并不能實現(xiàn)100%的準確性。
人工智能背后是一整套算法的支持,而這些算法的優(yōu)化又依賴于大量的數(shù)據(jù)進行不斷的訓練,從而獲取到一個在訓練數(shù)據(jù)上相對較好的模型,然后再利用這一模型對其他數(shù)據(jù)做出預測。在這一過程中,任何一個因素都有可能導致預測結果出現(xiàn)一個偏差。舉一個例子,當我們試圖訓練一個模型來創(chuàng)作一行標題用以描述圖片內(nèi)容時,我們常常認為該模型是在“理解”圖片的內(nèi)容的基礎上,從而產(chǎn)生相應的標題。然而,當輕微改變訓練數(shù)據(jù)中存在的圖像時,比如調(diào)制一些特制的噪聲進去后,研發(fā)者會非常驚訝地發(fā)現(xiàn)模型開始創(chuàng)作完全荒謬的字幕。
通常,這類行為被強調(diào)為對抗案例,通過向深度學習網(wǎng)絡輸出錯誤的樣本來欺騙模型。 如上圖所示,我們拍攝一輛卡車,添加一個“鴕鳥”梯度噪聲,則訓練好的神經(jīng)網(wǎng)絡可以以很高的置信度將這輛卡車分類為鴕鳥,而人類肉眼完全無法判斷這兩張圖片之間的區(qū)別。 這證明了深度學習模型并非萬能的,它們從輸入到輸出映射與我們?nèi)祟惛兄g的深刻差異。
簡而言之,深度學習模式對他們的輸入沒有任何理解,至少不是從人的意義上來說。我們對圖像,聲音和語言的理解是基于我們的運動感覺體驗。然而機器人卻沒有這種經(jīng)驗,因此不能以任何以人為本的方式理解他們的駛?cè)?。通過輸入大量的培訓示例來訓練我們的模型,我們讓他們學習一個幾何變換,將數(shù)據(jù)映射到這個特定的一組示例上的人類概念,但是這個映射只是我們思想中原始模型的簡單草圖。
這也就是現(xiàn)在人工智能技術發(fā)展的困境。同樣,這與適用于自動駕駛技術?!艾F(xiàn)在對于人工智能的態(tài)度,兩類人是恐懼的。一類是不懂的人,他們認為人工智能是破壞性的;另一類是懂的人,因為他們知道人工智能能夠解決很多現(xiàn)實問題,但是這需要對人工智能技術有個正確的認識和用法,特別是算法的設計。
當算法應用于產(chǎn)品時,我們不僅僅要考慮算法是否能夠?qū)崿F(xiàn)需求,同時還必須考慮算法本身的性能和準確性,這就和算法本身的體系搭建有著密切的關系。
為你的場景找到人工智能的位置
人工智能只是一個單純的技術,需要與對應的應用場景進行結合,自動駕駛就是典型應用。王曉雷表示,AI能做的與人類想要的交集就是我們的機會。所以,我們給人工智能找到一個合適的落地場景。為了實現(xiàn)這樣的目標,我們需要思考以下問題:
預測的目標可以被量化嗎?
與目標相關的特征可以被有效的表達嗎?
指標和目標相關嗎?
有足夠的數(shù)據(jù)來訓練模型嗎?
不可否認,人工智能代表著未來的方向。但是在生活中,除了在某些特定的場景(自然語言處理和計算機視覺)使用到外,人們還無法感受到它的存在和意義。目前人工智能還遠沒有達到一個被公眾所大范圍接受的地步,因為它真正缺失的也是最核心的東西,正是用戶場景。更準確地來說是接地氣的用戶場景。
在當前,隨著CNN、RNN等算法成熟和GPU對計算能力的提高,現(xiàn)今人工智能所需要面臨的是如何使應用深化,從而對產(chǎn)業(yè)發(fā)起變革。特別是場景化、標簽化的數(shù)據(jù)獲得是人工智能應用落地的關鍵。我們以安防為例,在深度學習、計算機視覺算法開源化的大趨勢下,具有特征性的場景數(shù)據(jù)集的獲得,是對安防行業(yè)人工智能視頻分析技術真正落地應用的關鍵。
1956年,美國達特茅斯大學會議標志著人工智能研究的正式誕生,推動了了全球第一次人工智能浪潮。但這一次人工智能的春天只持續(xù)了20年,原因是當時過于重視算法和方法論,而導致了人工智能在處理問題范圍的局限性。
如今,人工智能研究的發(fā)展已經(jīng)歷了六十多年的沉浮,從硬件的計算能力、到深度學習算法、計算機視覺技術和自然語言處理等各領域都有了本質(zhì)上的飛躍,人工智能已經(jīng)從一個學術層面上的探索發(fā)展成一種可推動產(chǎn)業(yè)結構變革的新興生產(chǎn)方式。
在這樣的情況,整個社會需要正視人工智能技術,擁抱人工智能,推動其在行業(yè)中的落地,而問題是在發(fā)展中解決的,我們不能因噎廢食。相信未來人工智能在整個產(chǎn)業(yè)革新方面發(fā)揮越來越重要的作用。
評論