幾經(jīng)沉浮,人工智能前路何方?(1)
以下文章來源于算法進(jìn)階 ,作者算法進(jìn)階
人工智能將和電力一樣具有顛覆性 。
——吳恩達(dá)
如同蒸汽時(shí)代的蒸汽機(jī)、電氣時(shí)代的發(fā)電機(jī)、信息時(shí)代的計(jì)算機(jī)和互聯(lián)網(wǎng),人工智能(AI)正賦能各個(gè)產(chǎn)業(yè),推動(dòng)著人類進(jìn)入智能時(shí)代。
本文從介紹人工智能及主要的思想派系,進(jìn)一步系統(tǒng)地梳理了其發(fā)展歷程、標(biāo)志性成果并側(cè)重其算法思想介紹,將這段 60余年幾經(jīng)沉浮的歷史,以一個(gè)清晰的脈絡(luò)呈現(xiàn)出來,以此展望人工智能(AI)未來的趨勢(shì)。
人工智能簡(jiǎn)介
1.1 人工智能研究目的
人工智能(Artificial Intelligence,AI)研究目的是通過探索智慧的實(shí)質(zhì),擴(kuò)展人類智能——促使智能主體會(huì)聽(語音識(shí)別、機(jī)器翻譯等)、會(huì)看(圖像識(shí)別、文字識(shí)別等)、會(huì)說(語音合成、人機(jī)對(duì)話等)、會(huì)思考(人機(jī)對(duì)弈、專家系統(tǒng)等)、會(huì)學(xué)習(xí)(知識(shí)表示,機(jī)器學(xué)習(xí)等)、會(huì)行動(dòng)(機(jī)器人、自動(dòng)駕駛汽車等)。一個(gè)經(jīng)典的AI定義是:“ 智能主體可以理解數(shù)據(jù)及從中學(xué)習(xí),并利用知識(shí)實(shí)現(xiàn)特定目標(biāo)和任務(wù)的能力。(A system’s ability to correctly interpret external data, to learn from such data, and to use those learnings to achieve specific goals and tasks through flexible adaptation)”
1.2 人工智能的學(xué)派
在人工智能的發(fā)展過程中,不同時(shí)代、學(xué)科背景的人對(duì)于智慧的理解及其實(shí)現(xiàn)方法有著不同的思想主張,并由此衍生了不同的學(xué)派,影響較大的學(xué)派及其代表方法如下:
其中,符號(hào)主義及聯(lián)結(jié)主義為主要的兩大派系:
“符號(hào)主義”(Symbolicism),又稱邏輯主義、計(jì)算機(jī)學(xué)派,認(rèn)為認(rèn)知就是通過對(duì)有意義的表示符號(hào)進(jìn)行推導(dǎo)計(jì)算,并將學(xué)習(xí)視為逆向演繹,主張用顯式的公理和邏輯體系搭建人工智能系統(tǒng)。如用決策樹模型輸入業(yè)務(wù)特征預(yù)測(cè)天氣:
“聯(lián)結(jié)主義”(Connectionism),又叫仿生學(xué)派,篤信大腦的逆向工程,主張是利用數(shù)學(xué)模型來研究人類認(rèn)知的方法,用神經(jīng)元的連接機(jī)制實(shí)現(xiàn)人工智能。如用神經(jīng)網(wǎng)絡(luò)模型輸入雷達(dá)圖像數(shù)據(jù)預(yù)測(cè)天氣:
人工智能發(fā)展史
從始至此,人工智能(AI)便在充滿未知的道路探索,曲折起伏,我們可將這段發(fā)展歷程大致劃分為5個(gè)階段期:
起步發(fā)展期:1943年—20世紀(jì)60年代
反思發(fā)展期:20世紀(jì)70年代
應(yīng)用發(fā)展期:20世紀(jì)80年代
平穩(wěn)發(fā)展期:20世紀(jì)90年代—2010年
蓬勃發(fā)展期:2011年至今
2.1 起步發(fā)展期:1943年—20世紀(jì)60年代
人工智能概念的提出后,發(fā)展出了符號(hào)主義、聯(lián)結(jié)主義(神經(jīng)網(wǎng)絡(luò)),相繼取得了一批令人矚目的研究成果,如機(jī)器定理證明、跳棋程序、人機(jī)對(duì)話等,掀起人工智能發(fā)展的第一個(gè)高潮。
1943年,美國神經(jīng)科學(xué)家麥卡洛克(Warren McCulloch)和邏輯學(xué)家皮茨(Water Pitts)提出神經(jīng)元的數(shù)學(xué)模型,這是現(xiàn)代人工智能學(xué)科的奠基石之一。
1950年,艾倫·麥席森·圖靈(Alan Mathison Turing)提出“圖靈測(cè)試”(測(cè)試機(jī)器是否能表現(xiàn)出與人無法區(qū)分的智能),讓機(jī)器產(chǎn)生智能這一想法開始進(jìn)入人們的視野。
1950年,克勞德·香農(nóng)(Claude Shannon)提出計(jì)算機(jī)博弈。
1956年,達(dá)特茅斯學(xué)院人工智能夏季研討會(huì)上正式使用了人工智能(artificial intelligence,AI)這一術(shù)語。這是人類歷史上第一次人工智能研討,標(biāo)志著人工智能學(xué)科的誕生。
1957年,弗蘭克·羅森布拉特(Frank Rosenblatt)在一臺(tái)IBM-704計(jì)算機(jī)上模擬實(shí)現(xiàn)了一種他發(fā)明的叫做“感知機(jī)”(Perceptron)的神經(jīng)網(wǎng)絡(luò)模型。
感知機(jī)可以被視為一種最簡(jiǎn)單形式的前饋式人工神經(jīng)網(wǎng)絡(luò),是一種二分類的線性分類判別模型,其輸入為實(shí)例的特征向量(x1,x2...),神經(jīng)元的激活函數(shù)f為sign,輸出為實(shí)例的類別(+1或者-1),模型的目標(biāo)是要將輸入實(shí)例通過超平面將正負(fù)二類分離。
1958年,David Cox提出了logistic regression。
LR是類似于感知機(jī)結(jié)構(gòu)的線性分類判別模型,主要不同在于神經(jīng)元的激活函數(shù)f為sigmoid,模型的目標(biāo)為(最大似然)極大化正確分類概率。
1959年,Arthur Samuel給機(jī)器學(xué)習(xí)了一個(gè)明確概念:Field of study that gives computers the ability to learn without being explicitly programmed.(機(jī)器學(xué)習(xí)是研究如何讓計(jì)算機(jī)不需要顯式的程序也可以具備學(xué)習(xí)的能力)。
1961年,Leonard Merrick Uhr 和 Charles M Vossler發(fā)表了題目為A Pattern Recognition Program That Generates, Evaluates and Adjusts its Own Operators 的模式識(shí)別論文,該文章描述了一種利用機(jī)器學(xué)習(xí)或自組織過程設(shè)計(jì)的模式識(shí)別程序的嘗試。
1965年,古德(I. J. Good)發(fā)表了一篇對(duì)人工智能未來可能對(duì)人類構(gòu)成威脅的文章,可以算“AI威脅論”的先驅(qū)。他認(rèn)為機(jī)器的超級(jí)智能和無法避免的智能爆炸最終將超出人類可控范疇。后來著名科學(xué)家霍金、發(fā)明家馬斯克等人對(duì)人工智能的恐怖預(yù)言跟古德半個(gè)世界前的警告遙相呼應(yīng)。
1966 年,麻省理工學(xué)院科學(xué)家Joseph Weizenbaum 在 ACM 上發(fā)表了題為《ELIZA-a computer program for the study of natural language communication between man and machine》文章描述了ELIZA 的程序如何使人與計(jì)算機(jī)在一定程度上進(jìn)行自然語言對(duì)話成為可能,ELIZA 的實(shí)現(xiàn)技術(shù)是通過關(guān)鍵詞匹配規(guī)則對(duì)輸入進(jìn)行分解,而后根據(jù)分解規(guī)則所對(duì)應(yīng)的重組規(guī)則來生成回復(fù)。
1967年,Thomas等人提出K最近鄰算法(The nearest neighbor algorithm)。
KNN的核心思想,即給定一個(gè)訓(xùn)練數(shù)據(jù)集,對(duì)新的輸入實(shí)例Xu,在訓(xùn)練數(shù)據(jù)集中找到與該實(shí)例最鄰近的K個(gè)實(shí)例,以這K個(gè)實(shí)例的最多數(shù)所屬類別作為新實(shí)例Xu的類別。
1968年,愛德華·費(fèi)根鮑姆(Edward Feigenbaum)提出首個(gè)專家系統(tǒng)DENDRAL,并對(duì)知識(shí)庫給出了初步的定義,這也孕育了后來的第二次人工智能浪潮。該系統(tǒng)具有非常豐富的化學(xué)知識(shí),可根據(jù)質(zhì)譜數(shù)據(jù)幫助化學(xué)家推斷分子結(jié)構(gòu)。
專家系統(tǒng)(Expert Systems)是AI的一個(gè)重要分支,同自然語言理解,機(jī)器人學(xué)并列為AI的三大研究方向。它的定義是使用人類專家推理的計(jì)算機(jī)模型來處理現(xiàn)實(shí)世界中需要專家作出解釋的復(fù)雜問題,并得出與專家相同的結(jié)論,可視作“知識(shí)庫(knowledge base)”和“推理機(jī)(inference machine)” 的結(jié)合。
1969年,“符號(hào)主義”代表人物馬文·明斯基(Marvin Minsky)的著作《感知器》提出對(duì)XOR線性不可分的問題:?jiǎn)螌痈兄鳠o法劃分XOR原數(shù)據(jù),解決這問題需要引入更高維非線性網(wǎng)絡(luò)(MLP, 至少需要兩層),但多層網(wǎng)絡(luò)并無有效的訓(xùn)練算法。這些論點(diǎn)給神經(jīng)網(wǎng)絡(luò)研究以沉重的打擊,神經(jīng)網(wǎng)絡(luò)的研究走向長(zhǎng)達(dá)10年的低潮時(shí)期。
2.2 反思發(fā)展期:20世紀(jì)70年代
人工智能發(fā)展初期的突破性進(jìn)展大大提升了人們對(duì)人工智能的期望,人們開始嘗試更具挑戰(zhàn)性的任務(wù),然而計(jì)算力及理論等的匱乏使得不切實(shí)際目標(biāo)的落空,人工智能的發(fā)展走入低谷。
1974年,哈佛大學(xué)沃伯斯(Paul Werbos)博士論文里,首次提出了通過誤差的反向傳播(BP)來訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),但在該時(shí)期未引起重視。
BP算法的基本思想不是(如感知器那樣)用誤差本身去調(diào)整權(quán)重,而是用誤差的導(dǎo)數(shù)(梯度)調(diào)整。通過誤差的梯度做反向傳播,更新模型權(quán)重, 以下降學(xué)習(xí)的誤差,擬合學(xué)習(xí)目標(biāo),實(shí)現(xiàn)'網(wǎng)絡(luò)的萬能近似功能'的過程。
1975年,馬文·明斯基(Marvin Minsky)在論文《知識(shí)表示的框架》(A Framework for Representing Knowledge)中提出用于人工智能中的知識(shí)表示學(xué)習(xí)框架理論。
1976年,蘭德爾·戴維斯(Randall Davis)構(gòu)建和維護(hù)的大規(guī)模的知識(shí)庫,提出使用集成的面向?qū)ο竽P涂梢蕴岣咧R(shí)庫(KB)開發(fā)、維護(hù)和使用的完整性。
1976年,斯坦福大學(xué)的肖特利夫(Edward H. Shortliffe)等人完成了第一個(gè)用于血液感染病的診斷、治療和咨詢服務(wù)的醫(yī)療專家系統(tǒng)MYCIN。
1976年,斯坦福大學(xué)的博士勒納特發(fā)表論文《數(shù)學(xué)中發(fā)現(xiàn)的人工智能方法——啟發(fā)式搜索》,描述了一個(gè)名為“AM”的程序,在大量啟發(fā)式規(guī)則的指導(dǎo)下開發(fā)新概念數(shù)學(xué),最終重新發(fā)現(xiàn)了數(shù)百個(gè)常見的概念和定理。
1977年,海斯·羅思(Hayes. Roth)等人的基于邏輯的機(jī)器學(xué)習(xí)系統(tǒng)取得較大的進(jìn)展,但只能學(xué)習(xí)單一概念,也未能投入實(shí)際應(yīng)用。
1979年,漢斯·貝利納(Hans Berliner)打造的計(jì)算機(jī)程序戰(zhàn)勝雙陸棋世界冠軍成為標(biāo)志性事件。(隨后,基于行為的機(jī)器人學(xué)在羅德尼·布魯克斯和薩頓等人的推動(dòng)下快速發(fā)展,成為人工智能一個(gè)重要的發(fā)展分支。格瑞·特索羅等人打造的自我學(xué)習(xí)雙陸棋程序又為后來的強(qiáng)化學(xué)習(xí)的發(fā)展奠定了基礎(chǔ)。)
2.3 應(yīng)用發(fā)展期:20世紀(jì)80年代
人工智能走入應(yīng)用發(fā)展的新高潮。專家系統(tǒng)模擬人類專家的知識(shí)和經(jīng)驗(yàn)解決特定領(lǐng)域的問題,實(shí)現(xiàn)了人工智能從理論研究走向?qū)嶋H應(yīng)用、從一般推理策略探討轉(zhuǎn)向運(yùn)用專門知識(shí)的重大突破。而機(jī)器學(xué)習(xí)(特別是神經(jīng)網(wǎng)絡(luò))探索不同的學(xué)習(xí)策略和各種學(xué)習(xí)方法,在大量的實(shí)際應(yīng)用中也開始慢慢復(fù)蘇。
1980年,在美國的卡內(nèi)基梅隆大學(xué)(CMU)召開了第一屆機(jī)器學(xué)習(xí)國際研討會(huì),標(biāo)志著機(jī)器學(xué)習(xí)研究已在全世界興起。
1980年,德魯·麥狄蒙(Drew McDermott)和喬恩·多伊爾(Jon Doyle)提出非單調(diào)邏輯,以及后期的機(jī)器人系統(tǒng)。
1980年,卡耐基梅隆大學(xué)為DEC公司開發(fā)了一個(gè)名為XCON的專家系統(tǒng),每年為公司節(jié)省四千萬美元,取得巨大成功。
1981年,保羅(R.P.Paul)出版第一本機(jī)器人學(xué)課本,“Robot Manipulator:Mathematics,Programmings and Control”,標(biāo)志著機(jī)器人學(xué)科走向成熟。
1982年,馬爾(David Marr)發(fā)表代表作《視覺計(jì)算理論》提出計(jì)算機(jī)視覺(Computer Vision)的概念,并構(gòu)建系統(tǒng)的視覺理論,對(duì)認(rèn)知科學(xué)(CognitiveScience)也產(chǎn)生了很深遠(yuǎn)的影響。
1982年,約翰·霍普菲爾德(John Hopfield) 發(fā)明了霍普菲爾德網(wǎng)絡(luò),這是最早的RNN的雛形?;羝辗茽柕律窠?jīng)網(wǎng)絡(luò)模型是一種單層反饋神經(jīng)網(wǎng)絡(luò)(神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要可分為前饋神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)及圖網(wǎng)絡(luò)),從輸出到輸入有反饋連接。它的出現(xiàn)振奮了神經(jīng)網(wǎng)絡(luò)領(lǐng)域,在人工智能之機(jī)器學(xué)習(xí)、聯(lián)想記憶、模式識(shí)別、優(yōu)化計(jì)算、VLSI和光學(xué)設(shè)備的并行實(shí)現(xiàn)等方面有著廣泛應(yīng)用。
1983年,Terrence Sejnowski, Hinton等人發(fā)明了玻爾茲曼機(jī)(Boltzmann Machines),也稱為隨機(jī)霍普菲爾德網(wǎng)絡(luò),它本質(zhì)是一種無監(jiān)督模型,用于對(duì)輸入數(shù)據(jù)進(jìn)行重構(gòu)以提取數(shù)據(jù)特征做預(yù)測(cè)分析。
1985年,朱迪亞·珀?duì)柼岢鲐惾~斯網(wǎng)絡(luò)(Bayesian network),他以倡導(dǎo)人工智能的概率方法和發(fā)展貝葉斯網(wǎng)絡(luò)而聞名,還因發(fā)展了一種基于結(jié)構(gòu)模型的因果和反事實(shí)推理理論而受到贊譽(yù)。
貝葉斯網(wǎng)絡(luò)是一種模擬人類推理過程中因果關(guān)系的不確定性處理模型,如常見的樸素貝葉斯分類算法就是貝葉斯網(wǎng)絡(luò)最基本的應(yīng)用。
貝葉斯網(wǎng)絡(luò)拓樸結(jié)構(gòu)是一個(gè)有向無環(huán)圖(DAG),通過把某個(gè)研究系統(tǒng)中涉及的隨機(jī)變量,根據(jù)是否條件獨(dú)立繪制在一個(gè)有向圖中,以描述隨機(jī)變量之間的條件依賴,用圈表示隨機(jī)變量(random variables),用箭頭表示條件依賴(conditional dependencies)就形成了貝葉斯網(wǎng)絡(luò)。對(duì)于任意的隨機(jī)變量,其聯(lián)合概率可由各自的局部條件概率分布相乘而得出。如圖中b依賴于a(即:a->b),c依賴于a和b,a獨(dú)立無依賴,根據(jù)貝葉斯定理有 P(a,b,c) = P(a)*P(b|a)*P(c|a,b)
1986年,羅德尼·布魯克斯(Brooks)發(fā)表論文《移動(dòng)機(jī)器人魯棒分層控制系統(tǒng)》,標(biāo)志著基于行為的機(jī)器人學(xué)科的創(chuàng)立,機(jī)器人學(xué)界開始把注意力投向?qū)嶋H工程主題。
1986年,辛頓(Geoffrey Hinton)等人先后提出了多層感知器(MLP)與反向傳播(BP)訓(xùn)練相結(jié)合的理念(該方法在當(dāng)時(shí)計(jì)算力上還是有很多挑戰(zhàn),基本上都是和鏈?zhǔn)角髮?dǎo)的梯度算法相關(guān)的),這也解決了單層感知器不能做非線性分類的問題,開啟了神經(jīng)網(wǎng)絡(luò)新一輪的高潮。
1986年,昆蘭(Ross Quinlan)提出ID3決策樹算法。
決策樹模型可視為多個(gè)規(guī)則(if, then)的組合,與神經(jīng)網(wǎng)絡(luò)黑盒模型截然不同是,它擁有良好的模型解釋性。
ID3算法核心的思想是通過自頂向下的貪心策略構(gòu)建決策樹:根據(jù)信息增益來選擇特征進(jìn)行劃分(信息增益的含義是 引入屬性A的信息后,數(shù)據(jù)D的不確定性減少程度。也就是信息增益越大,區(qū)分D的能力就越強(qiáng)),依次遞歸地構(gòu)建決策樹。
1989年,George Cybenko證明了“萬能近似定理”(universal approximation theorem)。簡(jiǎn)單來說,多層前饋網(wǎng)絡(luò)可以近似任意函數(shù),其表達(dá)力和圖靈機(jī)等價(jià)。這就從根本上消除了Minsky對(duì)神經(jīng)網(wǎng)絡(luò)表達(dá)力的質(zhì)疑。
“萬能近似定理”可視為神經(jīng)網(wǎng)絡(luò)的基本理論:?個(gè)前饋神經(jīng)?絡(luò)如果具有線性層和?少?層具有 “擠壓” 性質(zhì)的激活函數(shù)(如 sigmoid 等),給定?絡(luò)?夠數(shù)量的隱藏單元,它可以以任意精度來近似任何從?個(gè)有限維空間到另?個(gè)有限維空間的 borel 可測(cè)函數(shù)。
1989年,LeCun (CNN之父) 結(jié)合反向傳播算法與權(quán)值共享的卷積神經(jīng)層發(fā)明了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),并首次將卷積神經(jīng)網(wǎng)絡(luò)成功應(yīng)用到美國郵局的手寫字符識(shí)別系統(tǒng)中。
卷積神經(jīng)網(wǎng)絡(luò)通常由輸入層、卷積層、池化(Pooling)層和全連接層組成。卷積層負(fù)責(zé)提取圖像中的局部特征,池化層用來大幅降低參數(shù)量級(jí)(降維),全連接層類似傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的部分,用來輸出想要的結(jié)果。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。