《科學大家》專欄 | 如何創(chuàng)造可信的AI?
撰文:蓋瑞·馬庫斯 (Gary Marcus) 紐約大學心理學與認知科學教授、暢銷書作家;歐內斯特·戴維斯(Ernest Davis)紐約大學柯朗數(shù)學科學研究所計算機科學教授。人工智能領域科學家
本文引用地址:http://cafeforensic.com/article/202007/416525.htm自從人工智能誕生之始,業(yè)界專家就一直愿景有余、落地不足。60年前,明斯基、麥卡錫等先驅人物曾篤信,AI 問題將在20世紀末之前被徹底解決。明斯基有句廣為流傳的名言:“一代人之內,人工智能的問題將在總體上得到解決?!?/p>
這些預言卻未能實現(xiàn),而新畫的“大餅”卻層出不窮。2002年,未來學家雷·庫茲韋爾公開斷言AI 將在2029 年之前“超越人類本身的智慧”。2018 年11 月,著名AI 研究機構OpenAI的聯(lián)合創(chuàng)始人伊利亞· 蘇茨科弗提出:“我們應嚴肅認真地考慮近期實現(xiàn)通用人工智能(AGI)的可能性?!?/p>
雖然從理論上講,庫茲韋爾和蘇茨科弗的預言有望實現(xiàn),但可能性非常渺茫。我們距離具有人類智能靈活性的通用人工智能僅積跬步,還需要大量的基礎性進步。并且繼續(xù)復制目前的行業(yè)經驗是遠遠不夠的。
即便并不是每個人都像庫茲韋爾和蘇茨科弗那樣積極樂觀,但從醫(yī)療行業(yè)到無人駕駛汽車領域,各種野心勃勃的承諾依然隨處可見。
虎頭蛇尾的AI項目
2012 年,我們經常聽到人們談起“自動駕駛汽車將在不久的將來成為現(xiàn)實”。2016 年,IBM 宣稱,在“Jeopardy !”智力問答節(jié)目中奪魁的AI 系統(tǒng)沃森將會“在醫(yī)療行業(yè)掀起一場革命”。
2015 年,F(xiàn)acebook 啟動了M 計劃。這是一個目標遠大、覆蓋范圍廣泛的聊天機器人項目,有能力應對你的每一種需求比如,比如預訂餐廳座位,或是規(guī)劃下一次度假旅行。
但直至今日,上述目標無一落實。
無人駕駛汽車也局限在高速公路環(huán)境中,還需要人類司機就位才能保證安全。隨著早期的樂觀態(tài)度逐漸冷卻,人們普遍認為,要達到真正的無人駕駛,尚需至少10 年的發(fā)展。
同樣,IBM 的沃森向醫(yī)療方向的轉型也冷卻了下來。當醫(yī)生將病人的胸痛癥狀告知沃森系統(tǒng)時,沃森并沒有提出心臟病、心絞痛或主動脈撕裂等可能的診斷。2016至2017 年,利用沃森開展的關于腫瘤學、罕見病等合作項目被先后叫停。
沃森的問題被曝光后不久,F(xiàn)acebook 的M計劃也被叫停。此時距離項目啟動的時間還不到3 年。
即便如此,看好AI 的呼聲依然狂熱。谷歌前首席執(zhí)行官施密特曾信心滿滿地宣布,AI 會解決氣候變化、貧困、戰(zhàn)爭和癌癥等諸多社會問題。
還有些人因AI 的潛在危害而苦惱不已,而這些擔憂與實際情況相去甚遠。亨利·基辛格在文章中稱,AI 的危險可能極其巨大,“人類歷史可能重蹈印加人的覆轍,面對AI,就像印加人面對無法理解的西班牙文化一樣,甚至會對其產生崇拜和敬畏之心”。 埃隆·馬斯克曾提出警告,推進AI 向前發(fā)展的行為無異于“召喚惡魔”,為人類帶來“比核武器更恐怖”的危險。已故史蒂芬·霍金曾說過,AI 的發(fā)明可能是“人類文明史上最可怕的事件”。
但是,他們所討論的AI 究竟是什么樣的AI ?
真的有可信的AI 嗎
人們之所以總是過高地估計AI 的實際能力,一部分原因在于媒體的夸張宣傳,濫用“歷史性突破”式的表述。技術報道的夸大其詞,會直接導致公眾形成AI成真近在咫尺的印象。而實際上,我們還有很漫長的夜路要走。
從今往后,若再聽說某個成功的AI 案例,建議讀者提出以下6 個問題:
1。 拋開華而不實的文筆,此AI 系統(tǒng)究竟實際做到了哪些事?
2。 此成果的通用性有多強?(例如閱讀任務,是能測量閱讀中的所有方面,還是只有其中的一小部分?)
3。 有沒有演示程序,能讓我用自己的例子來實驗一下?如果沒有,請保持懷疑態(tài)度。
4。 如果研究人員或媒體稱此AI 系統(tǒng)強于人類,那么具體指哪些人類,強出多少?
5。 被報道的研究成果中所成功完成的具體任務,實際上與真正的人工智能相距多遠?
6。 此系統(tǒng)的魯棒性如何?如果使用其他數(shù)據(jù)集,在沒有大規(guī)模重新訓練的情況下,是否還能成功?
狹義AI 與廣義AI
一言以蔽之,目前的AI 是在限制領域內專用的狹義AI,只能應用于其設計初衷所針對的特定任務,前提是系統(tǒng)所遇到的問題在算法預測的范圍內。這使得AI基本等同于數(shù)字化白癡專家:可以讀懂銀行支票、給照片打標簽、以世界冠軍的水準玩棋牌游戲,但也僅限于此。生活中,我們本想要的是能迅速執(zhí)行指令、給孩子換尿布、給家人做飯的“機器人羅茜”,實際是扁圓形掃地機器人。
2018年春,當谷歌發(fā)布Duplex系統(tǒng)之時,人們還在爭論計算機在打電話時是否應該主動自報身份。但實際上,Duplex 的有效場景非常狹窄:預訂餐廳座位、跟發(fā)型師預約理發(fā)時間、查看某些商鋪的營業(yè)時間。
狹義AI 正日新月異地發(fā)展。但AI 遠不止這么簡單。
AI 應當能治愈癌癥、搞清楚大腦的工作方式、發(fā)明出新材料、提高農業(yè)和交通的效率、應對氣候變化?,F(xiàn)在與谷歌同屬一家母公司Alphabet 的DeepMind 曾有一句口號:“搞定智慧,然后用智慧搞定所有其他問題?!?/p>
等到全能機器人管家真正到來的那一天,人們就可以從家務中解放雙手,殘障人士也有可靠的助手。機器人還能取代人類從事危險工作,地下、水下、火災現(xiàn)場、坍塌建筑物、火山內部、出故障的核反應堆等場景。屆時,因公致死事件將大幅減少,而采寶貴自然資源的能力將大幅提高。
現(xiàn)在仍然缺少一些重要的東西,僅靠狹義AI 是不夠的。
令人擔憂的是,更多的權力還在不停地被交到不可靠的機器手中。這些機器不具備對人類價值觀的理解,根本無法解決利害關系較大的問題。
問題核心在于“信任”。如今的狹義AI 系統(tǒng)只能按照編程邏輯工作,完成被程序員精準預期到的任務。如果狹義AI 系統(tǒng)給你推送了一條錯誤的廣告,影響不大。但如果AI 系統(tǒng)駕駛著汽車,全速撞向其數(shù)據(jù)庫中并不存在的外觀奇特的車輛,或是給癌癥病人下了錯誤的診斷呢?
如今的AI 界所普遍欠缺的是廣義AI(Broad AI),也就是“通用人工智能”。廣義AI 的目標,就是要像人類一樣,有能力靈活適應這個本質上疆域無限的世界。但廣義AI 領域的進展要比狹義AI 緩慢許多。
真實生活沒有完美的數(shù)據(jù)庫能窮盡并預演生活中每種可能性及應對方式。舉例來說,擁有智慧的新聞閱讀系統(tǒng),必須有能力掌握普通成年人的“常識”而不用新聞提及,比如“你能用螺絲刀擰緊螺絲” “手槍形狀的巧克力不能射出真正的子彈”。這種靈活性正是通用人工智能:普通人擁有的智能。這一點狹義AI的大數(shù)據(jù)“訓練”路徑無法企及。
狹義AI 領域的研究者常常會忽略現(xiàn)有數(shù)據(jù)庫之外的異常值(outliers)。但是,如何利用通用人工智能來應對開放性的系統(tǒng),而非利用專為封閉性系統(tǒng)設計的蠻力,才是行業(yè)發(fā)展的關鍵所在。
理想與現(xiàn)實之間的鴻溝
理想與現(xiàn)實之間,存在著一個被稱為AI 鴻溝的大坑。追根溯源,此大坑可一分為三。其中每一個都需要我們坦誠面對。
第一個坑,我們稱之為“輕信坑”。人類在進化過程中,并沒有發(fā)展出在人類和機器之間進行區(qū)分的辨別能力。而機器的行為看起來總與人有所相似,所以人們會下意識從人類的思維機制、認知的角度去看待機器。事實上,機器遵從的規(guī)則簡單通透。從社會心理學角度看,此現(xiàn)象稱為“基本超歸因錯誤”。
基本超歸因錯誤的早期案例之一,是60 年代中期一個名叫伊麗莎(Eliza)的聊天機器人。與之交流的人們總覺得它聽懂了。事實上,它只是聯(lián)系前文在關鍵詞之間做了對應,當不知道該說什么時,它會說:“跟我講講你的童年時代?!比绻闾岬搅四赣H,它就會聊家庭,但卻不明白家庭概念與重要性,這并非真正的智能。
盡管如此,依舊有人會和伊麗莎一連聊好幾個小時,誤以為它懂自己。用伊麗莎的創(chuàng)造者約瑟夫· 魏岑鮑姆(Joseph Weizenbaum)的話說:
人們本來對和機器對話這件事心知肚明,但很快就會將這一事實拋在腦后。就像去劇院看戲的人們一樣,在一環(huán)扣一環(huán)的情節(jié)渲染下,很快就會忘記他們眼前的一幕并非“真情實景”。人們常常要求和系統(tǒng)進行私下交流,并且在交流一段時間之后,堅持認為此機器真的懂他們,無論我再怎么解釋也沒用。
第二個坑,我們稱之為“虛幻進步坑”:誤以為AI 解決了簡單問題,就是飛躍性進步。沃森在Jeopardy !中獲勝就被認為在語言理解方面走出了一大步,正是這樣。
相比之下,現(xiàn)實中完美而清晰的模擬數(shù)據(jù)根本就不存在,也無法大量試錯,人們只能用有限的次數(shù)來嘗試不同策略。
第三個坑,就是我們所稱的“魯棒坑”。在業(yè)界時常發(fā)生:每當AI 解決方案能在某些時候發(fā)揮作用,人們就會假定,只要再多一點數(shù)據(jù),此系統(tǒng)就能在所有的時刻發(fā)揮作用。
在當下的AI 研究中,魯棒性未得到足夠重視。部分源于目前的研究領域的容錯率較高,比如廣告和商品推薦。但在無人駕駛汽車、老人照護、醫(yī)療規(guī)劃等領域中,魯棒性都至關重要。沒人會花錢買個只能以五分之四的概率將爺爺安全抱到床上的機器人管家。
就算是目前AI 最擅長的領域,也潛藏危機。以圖像識別為例,很多時候AI不僅無法識別,還會犯低級錯誤。如果你給所謂的“自動標題系統(tǒng)”看一張貼著許多貼紙的停車標志,系統(tǒng)會錯誤地識別為“裝了許多食品和飲料的冰箱”。
沒人對這類錯誤做任何解釋,但這并不少見。
同樣,無人駕駛汽車也不能百分百識別。比如特斯拉屢次撞向路邊的消防車。而對電網進行控制或對公共健康進行監(jiān)查的系統(tǒng),若出現(xiàn)類似的盲點,其后果更加危險。
如何跨越AI 鴻溝
若想跨越“AI 鴻溝”這個大坑向前走,我們需要做到三件事:搞清楚AI技術的利害關系;想明白當前的系統(tǒng)為什么解決不了問題;找到新策略。
工作機會、人身安全、社會結構,這些都與AI 的發(fā)展息息相關。由此可見,所有人都迫切需要緊跟AI 行業(yè)的最新進展,都需要用批判的眼光去審視AI,區(qū)分宣傳與實情。
AI 前行的最佳方向,應在人類心智的內在結構中尋找線索。它不必是人類的完美復制品,但AI 依然有許多需要向人類學習的地方,尤其要向極具吸收并理解新概念能力的小孩子學習。
計算機總被認為在某方面擁有“超人類”能力,但人類的大腦依然在5個基本方面令計算機望塵莫及:理解語言、周遭世界,靈活適應新環(huán)境,在沒有大數(shù)據(jù)時快速學習新事物、進行推理。相比之下,行業(yè)對于制造“白板”機器的癡迷是一個嚴重的錯誤:這些機器完全依靠數(shù)據(jù)而非知識驅動。
用不了多久,AI 就會像電力一樣普及到千家萬戶。隨著越來越多的權力被交給AI,人類就要不斷提高警戒。沒有什么比修正AI 的前行方向更為緊迫的任務了。
也許只有搞明白人類的大腦是如何做到這些的(不是深度學習擅長的那種對相關性的搜尋),才能獲得AI 迫切需要的重啟契機,打造出深度、可靠、值得信任的AI 系統(tǒng)。
當下AI 的9 個風險
當然,所有的技術都會出錯,就連人們最熟悉的古老技術也會出問題。就在本書開始撰寫前不久,邁阿密的一處人行天橋在剛剛安裝好5 天之后便突然坍塌,奪去了6 個人的生命。盡管人類在橋梁建設方面已經積累了3000 多年的經驗。
在人工智能從根本上得到重構和改進之前,風險無處不在。這里有9 個風險是我們最擔心的。
第一個風險是前文提到的基本超歸因錯誤。在AI水平獲得大幅提升之前,我們需要時刻保持警醒,不能將太多的信任交到AI手中。
第二個風險是魯棒性的缺失。要讓無人駕駛汽車具備隨機應變的能力,就要有更好的人工智能方法。
第三個風險是,現(xiàn)代機器學習嚴重依賴于大量訓練集的精準細節(jié),如果將這樣的系統(tǒng)應用于訓練過的特定數(shù)據(jù)集之外的全新問題,就沒法用了。
第四個風險是,盲目地過分依賴于數(shù)據(jù),這也會導致過時的社會偏見長期存在。2013 年,哈佛大學計算機科學家拉坦婭· 斯威尼發(fā)現(xiàn),谷歌搜索典型黑人名字,會出現(xiàn)許多關于逮捕記錄信息查詢的廣告。但白人常用名,則沒有此類情況。但迄今為止,還沒人找到針對此問題的通用解決方案。
第五個風險是,當代AI 對訓練集的嚴重依賴,也會引發(fā)有害的回音室效應,系統(tǒng)最后會被自己之前產出的數(shù)據(jù)訓練。
第六個風險是,有些程序依賴于公眾可任意操縱的數(shù)據(jù),導致程序被愚弄。比如2018 年7 月,人們成功讓谷歌圖片對“白癡”一詞的搜索結果變成了特朗普的照片。
第七個風險是,之前已經存在的社會偏見再加上回音室效應,會進一步加劇社會偏見的程度。例如根據(jù)歷史數(shù)據(jù)訓練的程序會建議在少數(shù)族裔社區(qū)配備更多警力、更快逮捕、判處更長監(jiān)禁。然后,該程序再去跑全新的數(shù)據(jù),新數(shù)據(jù)會強化之前的判斷,而程序也會帶著更強的信心,給出同一類帶有偏見的推薦。
第八個風險是,太容易落入錯誤目標的陷阱。比如程序員鼓勵踢足球的機器人以盡可能多的次數(shù)去觸碰足球。結果機器人站在球旁邊不停地快速抖動。
第九個風險是,由于AI 的潛在影響范圍非常之廣,可能被人利用。惡意跟蹤者利用基礎AI 技術就能監(jiān)控和操縱受害人。垃圾郵件傳播者一直利用AI 識別模糊的符號,繞開網站用來區(qū)分人類和機器的圖片驗證碼。
但我們認為,上述問題中有很多是可以解決的,但現(xiàn)有技術還沒這個水平?,F(xiàn)如今的AI 被數(shù)據(jù)像奴隸一樣驅趕,對程序員和系統(tǒng)設計師希望其遵從的道德價值觀一無所知。但這并不意味著未來所有的AI 也存在同樣的問題。
這僅靠大數(shù)據(jù),是辦不到的。只能逐一解決窄問題的AI在需要應對核心問題時,只能繞道走。在迫切需要大腦移植手術時,只給出創(chuàng)可貼。長此以往,整個行業(yè)就會陷入永無休止的“打地鼠”大戰(zhàn),用短期數(shù)據(jù)補丁來解決特定問題。
誠然,最近幾年來,AI的發(fā)展速度驚人。從下棋到語音識別再到人臉識別,AI 都取得了長足的進步。我們特別欣賞的一家名叫Zipline 的創(chuàng)業(yè)公司,用AI 技術引導無人機將血液送給非洲患者。這在幾年前還無法實現(xiàn)。
其中許多成功案例,大都得到了兩個因素的驅動:第一,硬件的進步,通過讓許多機器并行工作,更大的內存和更快的計算速度成為現(xiàn)實;第二,大數(shù)據(jù),包含十億字節(jié)、萬億字節(jié)乃至更多數(shù)據(jù)的巨大數(shù)據(jù)集。
和數(shù)據(jù)同時出現(xiàn)的,還有用于數(shù)據(jù)處理的算法—“深度學習”。深度學習是一種極其強大的統(tǒng)計引擎。從DeepMind的AlphaZero 和AlphaZeroa,到谷歌最近推出的對話和語音合成系統(tǒng)谷歌Duplex,其核心都是深度學習。在這些案例中,大數(shù)據(jù)、深度學習再加上速度更快的硬件,便是AI 的制勝之道。
什么是深度學習
深度學習基于兩個基本思想。第一個叫作分層模式識別,部分源于50年代的一系列實驗。休伯爾和維澤爾發(fā)現(xiàn),視覺系統(tǒng)中的不同神經元對視覺刺激有不同的反應方式。他們提出,針對復雜刺激的識別可能會通過一系列不斷提高的抽象層級實現(xiàn),比如從線條到字母再到詞匯。
80年代,日本神經網絡先鋒人物福島邦彥將上述思想在計算機實踐中落地,打造出了“神經認知機”,并證明它可以用于計算機視覺的某些方面。這是AI史上的重要里程碑事件。
因為每個分層上所包含的“節(jié)點”,跟簡化的神經元略有相似,這種系統(tǒng)被叫作神經網絡。節(jié)點之間的連接,被稱為連接權值,簡稱權值。從節(jié)點A 到節(jié)點B 的連接權值越大,A 對B 的影響就越強。神經網絡就是關于這些權值的一個函數(shù)。
第二個基本思想是學習。舉例來說,通過加強特定輸入配置對應特定輸出的權重,就能“訓練”一個網絡去學習將特定輸入與相應輸出聯(lián)系在一起。假設你想讓網絡學習像素網格上不同字母的名稱。通過一系列試錯和調整,系統(tǒng)會逐漸開始將網格上端的像素與諸如T 和E 這樣的字母聯(lián)系起來,將左邊緣的像素與字母E、F 和H 聯(lián)系起來,慢慢掌握不同位置上的像素與對應標簽之間的相關性。
在50年代,羅森布拉特已經充分認識到這一思路的可行性,但囿于當時的網絡只有一個輸入層和一個輸出層,當時沒人能給出可行的解決方案。那時的原生態(tài)神經網絡,只有輸入層(圖像)和輸出層(標簽),中間空無一物。
另一個重要思想由楊立昆在80年代后期提出,如今仍然被廣泛采用。這項技術叫作卷積。卷積能構建起一系列的連接,無論某物體出現(xiàn)在圖像的哪個位置,它依然能被系統(tǒng)識別出來。由此,卷積技術提升了物體識別系統(tǒng)的效率。
雖然從數(shù)學上看起來不錯,但當時卻沒有足夠說服力。因為需要數(shù)量龐大到無法想象的節(jié)點,而當時的計算機不可能在合理的時間之內完成所有計算。
這些問題一直沒有行之有效的解決方案,直到GPU橫空出世。最終催化出這場深度學習革命的除了一些重要的技術調整之外,就是找到了高效利用GPU的辦法,用更多的分層打造出更為復雜的模型,實現(xiàn)利用4 層或更多,有時達到100 多層訓練網絡的深度學習。
深度學習取得了真正令人矚目的好成績?,F(xiàn)在只需幾小時或幾天的計算時間,系統(tǒng)便能得出優(yōu)異成果。深度學習在許多方面的使用過程中都更加輕松簡易。從某種程度上說,深度學習在許多問題上都可以在沒有大量特征工程的情況下正常工作。
而且深度學習擁有極高的通用性。深度學習能用已故藝術大師的風格創(chuàng)造出合成藝術,比如將你的風景照片轉換為凡· 高風格,能給老照片上色。
2016 年,著名AI研究學者吳恩達曾在《哈佛商業(yè)評論》發(fā)表文章稱:“如果普通人能在不到一秒的時間內完成某一項腦力工作,那么我們很可能可以在現(xiàn)在或不遠的將來用AI 將其自動化?!?/p>
深度學習的三個核心問題
盡管事實證明深度學習比之前的任何一門技術都要強大得多,但人們似乎依舊對其期望過高。2012 年,馬庫斯以他十幾年前對深度學習上一代技術進行的研究為基礎,在《紐約客》上發(fā)表了一篇文章,文中寫道:
從現(xiàn)實角度來看,深度學習只不過攻克了智能機器這一巨大挑戰(zhàn)中的一小部分。深度學習這類技術缺乏表示因果關系(例如疾病及其癥狀之間的關系)的方法,很可能在面對“兄弟姐妹”或“與之相同”等抽象概念時遇到問題。深度學習無法進行邏輯推理,在抽象知識的理解方面也有很長一段路要走……
幾年之后,上述說法依然適用。深度學習不是萬能藥,依然與我們在開放系統(tǒng)中需要的通用人工智能相去甚遠。
特別需要強調的是,深度學習面臨三個核心問題,每一個問題既會影響到深度學習自身,也會影響到嚴重依賴于深度學習的其他流行技術,比如深度強化學習:
第一,深度學習是貪婪的。為了將神經網絡中的所有連接都調校準確,深度學習常常需要大量的數(shù)據(jù)。AlphaGo 要下3000 萬盤棋,才能達到超人類的水平。如果數(shù)據(jù)量減少,深度學習的表現(xiàn)水平也會急轉直下。而相比之下,我們人類在學習過程中并不需要這么多的數(shù)據(jù)。深度學習本質上是無法做到這樣的快速學習的。
深度學習之所以搞不定語言和翻譯,就是因為帶有新意義的新句子層出不窮。你所面對的現(xiàn)實世界問題與訓練系統(tǒng)所使用的數(shù)據(jù)相差越大,系統(tǒng)的可靠性就越低。
第二,深度學習是不透明的。神經網絡由大量數(shù)值矩陣組合而成,其中任何一個矩陣都是普通人類從直覺上無法理解的。就算利用復雜的工具,專業(yè)人士也很難搞明白神經網絡決策背后的原因。神經網絡究竟為何能做到這許多事情,至今仍然是一個未解之謎。人們也不知道神經網絡在達不到既定目標時,問題究竟出在哪里。
事實上,神經網絡如同“黑箱”一般,不管做什么,你只能看到結果,很難搞懂里面究竟發(fā)生了怎樣的過程。當我們對神經網絡驅動的無人駕駛汽車或家政機器人寄予厚望時,這就是個非常嚴重的問題。
深度學習的不透明,還有另一個問題,就是深度學習與周遭世界的常識并不相符。若想要深度網絡搞明白“蘋果長在樹上”,或是“蘋果從樹上掉下來的時候,會從上往下掉,而不是從下往上飛”,并不是件容易的事。搞明白小球是怎樣沿坡道下滑,順著斜槽滾落到升降機上,更是不可能完成的任務。
第三,深度學習是脆弱的??捎糜谟夼疃染W絡的方法達數(shù)十種之多,這是長期存在的問題。麻省理工學院的研究團隊就設計出了一只三維海龜,被深度學習系統(tǒng)錯認成來復槍。
將海龜放到水下環(huán)境也沒能改變錯誤結果,即便來復槍一般不會出現(xiàn)在水下。該團隊又在棒球上涂了點肥皂泡,放在棕色的棒球手套中,不論什么角度都會被識別錯成一杯濃縮咖啡。
另一個團隊在圖片的小角落里不顯眼地加了些隨機小補丁,小豬存錢罐就被錯認成了“虎斑貓”。
還有一個團隊將帶有迷幻風格圖案的杯墊放到香蕉旁邊,就能愚弄系統(tǒng),令其認為畫面中只有一個杯墊,而不是香蕉旁邊放著一個小杯墊。如果這是個小孩子得出的結果,家長一定會帶孩子去看醫(yī)生了。
還有這個被蓄意篡改的停車標志,被深度學習系統(tǒng)錯認為限速標志。
到了語言領域,深度學習犯下的錯誤就更加稀奇古怪了。斯坦福大學計算機科學家羅賓· 賈(Robin Jia)和珀西· 梁針對斯坦福問答數(shù)據(jù)庫任務系統(tǒng)進行了研究。深度學習會嘗試回答有關文本內容的問題。給出以下文本:
佩頓·曼寧成為史上首位帶領兩只不同球隊參加多次超級碗比賽的四分衛(wèi)。他在39 歲時參賽,成為超級碗歷史上最年長的四分衛(wèi)。之前的紀錄由約翰·埃爾韋保持,他在38 歲時帶領野馬隊在第33 屆超級碗比賽中獲勝。目前,他是丹佛市的橄欖球運營執(zhí)行副總裁兼總經理。
問題:第33 屆超級碗中38 歲的四分衛(wèi)叫什么名字?
一個深度學習正確地給出了“約翰· 埃爾韋”的答案。到目前為止一切正常。但是,賈和梁在這一段話后加了一句無關信息:“四分衛(wèi)杰夫· 迪恩在第34 屆冠軍碗中的球衣號碼是17 號?!敝笤偬岢鐾粏栴},系統(tǒng)卻給出了杰夫· 迪恩作為答案,而非約翰· 埃爾韋。系統(tǒng)的表現(xiàn),完全沒有顯現(xiàn)出對任何一句的真正理解。
還有一項研究發(fā)現(xiàn),用說了一半的問題去愚弄回答問題的系統(tǒng),簡直輕而易舉。深度學習依賴于相關性,而非真正的理解。舉例來說,如果你問系統(tǒng)“有多少”,就能得到答案“2”;如果你問“什么運動”,就能得到答案“網球”。就這樣和系統(tǒng)互動一段時間,你就能感覺到自己面對的是一堆精心制作的小伎倆,而非真實的智能。
機器翻譯的表現(xiàn)更加離譜。如果在谷歌翻譯中輸入“dog dog dog dog dog dog dog dog dog dog dog dog dog dog dog dog dog dog”,要求從約魯巴語(或其他一些語言)翻譯成英文,便會得到以下翻譯:
世界末日時鐘是差三分十二點。我們正在經歷世界上角色的戲劇性發(fā)展,這表明我們越來越接近末日和耶穌的回歸。
歸根結底,深度學習不夠深刻。 “深度”二字,指的是神經網絡中分層的數(shù)量,除此之外別無其他,這個詞并不意味著系統(tǒng)能領會其所見數(shù)據(jù)中的豐富概念。
深度學習是一個“美好”的悲劇
那么,既然存在這么多問題,為什么還有那么多人對深度學習狂熱追捧呢?因為它在處理大規(guī)模數(shù)據(jù)集的統(tǒng)計近似問題時非常有效,而且還能一鍵解決非常多的問題。同時,深度學習有著很高的商業(yè)價值。
有所成就并不意味著深度學習的行為背后存在一個真正的智能。
深度學習是與人類思想有著天壤之別的怪獸。它可以成為擁有神奇感知能力的白癡天才,但幾乎不具備綜合理解能力。能語音識別和物體識別的系統(tǒng)充其量不過是智能的片段而已。若想獲得真正的智能,還需要推理能力、語言能力和類比能力,沒有一個是當前技術所能掌握的,因為系統(tǒng)本身的模式分類能力并不足以完成這項任務。
大眾媒體對深度學習的描述和吹捧會令人產生誤解。這也讓深度學習成了一個“美好”的悲劇。之所以悲劇,是因為無法保證現(xiàn)實世界中的系統(tǒng)正確應對迫切需求,更不能保證在系統(tǒng)犯錯時能找出癥結,排除故障。從某種角度來看,深度學習更像是一門藝術,而非科學。
如今的現(xiàn)實情況,就好像有人發(fā)明了電動螺絲刀,整個社會便立刻覺得星際旅行指日可待。
人工智能> 機器學習> 深度學習
讓機器通過統(tǒng)計學方法利用數(shù)據(jù)進行學習,有許多不同的思路。深度學習本身只不過是其中一種。
深度學習、機器學習和人工智能之間的關系,可以通過下面這張維恩圖來形象描述:
深度學習是目前AI 領域中最受學術界和產業(yè)界關注、獲得投資最多的一類。但是,深度學習既非機器學習唯一的方法,更非AI 唯一的方法。舉例來說,機器學習的一種方法是建立決策樹,基本就是像下面這種簡單的數(shù)據(jù)分類規(guī)則組成的系統(tǒng):
機器學習還有一門技術是支持向量機,將數(shù)據(jù)組織為復雜而抽象的超級立方體。21 世紀第一個10 年間,支持向量機曾在機器學習界占據(jù)主宰地位,被人們用來計算從新聞標題到蛋白質結構等五花八門的各種東西。概率模型是對各種答案存在的可能性進行計算,并給出其認為可能性最大的一個。這種方法是IBM 沃森取得成功的關鍵所在,很有可能會繼續(xù)發(fā)揮影響力。
還有一種方法稱為遺傳算法,是一種基于進化過程的模型。研究人員對不同的算法進行嘗試,并制造某種形式的“突變”。適者生存,生息繁衍。從設計無線電天線到玩視頻游戲等各個應用領域,遺傳算法都有用武之地,在某些領域還取得了與深度學習并駕齊驅的傲人成績。諸如此類的算法還有很多,我們不在此一一列舉。
機器也會犯錯
數(shù)字化助理的確有用,但如果不小心記錯關鍵會議時間,就捅了大婁子。隨著行業(yè)的發(fā)展,機器人管家是必然趨勢,但要確保此機器人每一次執(zhí)行任務都保證能成功,而不是前9 次成功,第10 次在廚房里釀成火災。我們越是依賴于機器,它們犯下的錯誤就越是事關重大。
還有一個亟待解決的問題,就是機器在面對人類的弦外之音甚至含混不清的表達時,必須能對人類意圖進行準確推測。一方面,存在只會聽從主人指示字面的“糊涂女傭”問題。如果你早上出門前跟清潔機器人說“將客廳的東西收到衣柜里”,回家一看,客廳里的每一樣東西都被裝進了衣柜里,而且為了能裝進去,電視、家具和地毯還被分拆成了小塊。
在護理有認知障礙的老年人時,問題就更大了。如果爺爺一時口誤,讓機器人將晚餐倒進垃圾堆里,系統(tǒng)應該有能力判斷這是否是句糊涂話??傊覀兿M麢C器人和AI 能認真對待我們的指令,但不要一味聽從字面指令。
機器人有暴力傾向嗎
史蒂芬·平克曾說過:“擁有超級智慧的機器人令人類淪為奴隸”的想法,就如同“因為飛機比老鷹飛得更高更遠,所以有朝一日飛機會從天而降抓走牛羊”的想法一樣荒誕不經。此謬誤將智慧與動機混為一談。因為智慧,是利用新穎的方法達到目標的能力。但聰明并不等同于有欲望。
若要征服世界,機器人首先要有力爭上游、野心勃勃、永不知足的性格,還要有暴力傾向。至今為止的機器人都沾不上邊。目前也沒有理由去打造一款帶有情緒狀態(tài)的機器人,就算想為機器人賦予情緒,也無從下手。人類可能會利用諸如欲求不滿等情緒作為奮發(fā)努力的工具,但機器人不需要任何此類工具,也能準時準點地開工干活。機器人只會去做人們讓它們做的事情。
我們毫不懷疑,有朝一日機器人一定會擁有足夠強大的體力和智力,強大到完全能與人類抗衡。但至少在可以預見的未來,還找不到任何機器人想要造反的理由。
評論