科大訊飛胡郁:人工智能的發(fā)展未來(lái)與創(chuàng)業(yè)
人工智能的前世今生
本文引用地址:http://cafeforensic.com/article/201702/343991.htm人工智能這一話題,最早可以回溯到1946 年世界上第一臺(tái)電子計(jì)算機(jī) ENIAC 的誕生。ENIAC 產(chǎn)生以后,很多計(jì)算機(jī)科學(xué)家對(duì)于計(jì)算機(jī)將來(lái)能夠代替人類(lèi)做什么事情有很多聯(lián)想,其中最著名的一個(gè)人是圖靈,他在 1950 年左右在人工智能領(lǐng)域進(jìn)行了很多的探討,并且提出了著名的“圖靈測(cè)試”。而“人工智能”一詞真正被提出來(lái),是在 1956 年Dartmouth 的會(huì)議上,由四位圖靈獎(jiǎng)得主、信息論創(chuàng)始人和一位諾貝爾獎(jiǎng)得主一起將“人工智能”定義出來(lái),包括明斯基、西蒙、麥卡塞等人,這次會(huì)議也被公認(rèn)為人工智能研究的出生典禮。
人工智能與機(jī)器人的關(guān)系在今天看來(lái),“機(jī)器人”一詞出現(xiàn)更早,1920 年就第一次出現(xiàn)了 Robot 這個(gè)詞,原本是蒸汽機(jī)械時(shí)代出現(xiàn)的東西,主要基于機(jī)械原理,跟計(jì)算機(jī)數(shù)字化、數(shù)學(xué)沒(méi)有什么關(guān)系;但在表現(xiàn)形式上有所不同:比如想要開(kāi)家里二樓的燈,如果通過(guò)人工智能,只需要對(duì)著系統(tǒng)說(shuō)一句,系統(tǒng)就會(huì)從后臺(tái)對(duì)語(yǔ)音指令進(jìn)行分析并開(kāi)燈;如果是機(jī)器人,則需要爬到二樓去把燈打開(kāi)。正本清源,人工智能 (Artificial Intelligence) 是指,能夠和人一樣進(jìn)行感知、認(rèn)知、決策、執(zhí)行的人工程序或系統(tǒng)。然而,人工智能發(fā)展的 60 年不是一帆風(fēng)順的,起起伏伏共經(jīng)歷了三次浪潮。
(1)1970 年第一次黃金期。自從Dartmouth 會(huì)議以后,人們陸續(xù)發(fā)明了第一款感知神經(jīng)網(wǎng)絡(luò)軟件和聊天軟件,那時(shí)大家都驚呼“人工智能來(lái)了,再過(guò)十年機(jī)器要超越人類(lèi)了”。不過(guò),很快到了 70 年代后期,人們發(fā)現(xiàn)過(guò)去的理論和模型,只能解決一些非常簡(jiǎn)單的問(wèn)題,很快人工智能進(jìn)入了第一次的冬天。
(2)1990 年第二次黃金期。隨著1982 年 Hopfield 神經(jīng)網(wǎng)絡(luò)和 BP 訓(xùn)練算法的提出,大家發(fā)現(xiàn)人工智能的春天又來(lái)了。 80 年代又興起一波人工智能的熱潮,包括語(yǔ)音識(shí)別、語(yǔ)音翻譯以及日本提出的第五代計(jì)算機(jī)。不過(guò),到了 90 年代后期,人們發(fā)現(xiàn)這種東西離我們的實(shí)際生活還很遙遠(yuǎn)。比如 IBM 在 90 年代時(shí)提出了一款語(yǔ)音聽(tīng)寫(xiě)的軟件叫 IBM Viavoice,在演示當(dāng)中效果不錯(cuò),但是真正用時(shí)卻很難使用。因此,在 2000 年左右第二次人工智能的浪潮又淹沒(méi)了。
(3)現(xiàn)在到了人工智能真正爆發(fā)的前夜。隨著 2006 年 Hinton 提出的深度學(xué)習(xí)技術(shù),以及在圖像、語(yǔ)音識(shí)別和其他領(lǐng)域內(nèi)取得的一些成功,大家認(rèn)為經(jīng)過(guò)了兩次起伏,人工智能開(kāi)始進(jìn)入了真正爆發(fā)的前夜??傊?,就國(guó)內(nèi)外人工智能公司這么多年的發(fā)展來(lái)看,使命是內(nèi)在的,階段性目標(biāo)是變化的。
人工智能何時(shí)能到來(lái)?
在我看來(lái),人工智能時(shí)代的到來(lái)離不開(kāi)人機(jī)交互模式的變革??梢钥吹剑?60 年代至今,IT 產(chǎn)業(yè)已經(jīng)歷硬件、軟件、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)與人工智能這五大浪潮,當(dāng)前已進(jìn)入物聯(lián)網(wǎng)產(chǎn)業(yè)萬(wàn)物互聯(lián)的時(shí)代。在無(wú)屏、移動(dòng)、遠(yuǎn)場(chǎng)狀態(tài)下,以語(yǔ)音為主,鍵盤(pán)、觸摸等為輔的人機(jī)交互時(shí)代正在到來(lái)。目前主要面臨兩種交互:一種是只需要語(yǔ)音即可,比如藍(lán)牙音箱、手環(huán)等,語(yǔ)音之外,不需要看到任何信息;另一種是語(yǔ)音+圖像,比如電視上的語(yǔ)音交互、手機(jī)等。在這種情況下,觸摸交互的學(xué)術(shù)名詞應(yīng)該叫做強(qiáng)視覺(jué)呈現(xiàn)的觸摸交互;而語(yǔ)音作為人機(jī)交互最自然的方式,將有效促進(jìn)人工智能與各行業(yè)的結(jié)合,讓人工智能更容易進(jìn)入大家的生活。除了語(yǔ)音交互,科大訊飛也在研究人臉識(shí)別技術(shù),其特色是可以將人臉識(shí)別與聲紋識(shí)別結(jié)合在一起,將聲音與圖片混合,來(lái)做活性檢測(cè)。
由此,人工智能也將進(jìn)入“智能 +”的時(shí)代,人工智能與各個(gè)行業(yè)的深入結(jié)合蘊(yùn)含著巨大的機(jī)會(huì)。除了交互,人工智能還可以用在教育、醫(yī)療、智慧城市、出行、司法、安全、金融等眾多領(lǐng)域;同時(shí),它在各個(gè)行業(yè)里可以做一個(gè)最簡(jiǎn)單的事情:就是替代人工。在未來(lái)的 10 年,人工智能會(huì)像技術(shù)的服務(wù)一樣,進(jìn)入到我們的生活當(dāng)中,每個(gè)人都將離不開(kāi)。
那么人工智能如何得以實(shí)現(xiàn)?在這里,我將人工智能的演進(jìn)發(fā)展分成三個(gè)階段:計(jì)算智能(能存會(huì)算)、感知智能(能聽(tīng)會(huì)說(shuō),能看會(huì)認(rèn))和認(rèn)知智能(能理解會(huì)思考)。計(jì)算智能就是計(jì)算機(jī)與人類(lèi)比存儲(chǔ)、比記憶,在此方面已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi)了。不過(guò),在感知層面,計(jì)算機(jī)在語(yǔ)音、圖像識(shí)別等方面與人類(lèi)還有較大差距,讓計(jì)算機(jī)真正能理解、會(huì)思考、進(jìn)行自我學(xué)習(xí),還是很欠缺的。只有實(shí)現(xiàn)認(rèn)知智能的突破,AI 才能部分取代腦力勞動(dòng)。
人工智能與創(chuàng)業(yè)
2016 年,人工智能產(chǎn)業(yè)得到了長(zhǎng)足的發(fā)展,收獲了不少成功的案例。這里,我認(rèn)為至少有三個(gè)因素促進(jìn)了人工智能在產(chǎn)業(yè)界的成功:深度神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)以及漣漪效應(yīng)。
(1)深度神經(jīng)網(wǎng)絡(luò)。其模型和算法相對(duì)于傳統(tǒng)的方法,有著本質(zhì)的不同;雖然它與我們?nèi)祟?lèi)的神經(jīng)網(wǎng)絡(luò)相比,還有很多不足,但是確實(shí)在架構(gòu)和描述方面有其強(qiáng)大之處。
(2)大數(shù)據(jù)。隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,數(shù)據(jù)每天都是以指數(shù)級(jí)增加:通過(guò)手機(jī)、微信等工具和軟件,人們可以隨時(shí)隨地把視覺(jué)、聽(tīng)覺(jué)上的這些數(shù)據(jù)輕松地傳到網(wǎng)上,匯聚起來(lái)形成大數(shù)據(jù)。
(3)漣漪效應(yīng)。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,各種軟件、各種設(shè)備接觸用戶的門(mén)檻極大地降低了。例如,當(dāng)一款新的 APP 找到第一批用戶時(shí),他們的使用行為和個(gè)人數(shù)據(jù)就被后臺(tái)記錄下來(lái),開(kāi)發(fā)者再對(duì)這種行為和記錄進(jìn)行迭代改進(jìn);當(dāng)再把 APP投向第二批用戶時(shí),軟件的性能已經(jīng)比第一代產(chǎn)品有了較大提升,這就是漣漪效應(yīng)。
可以說(shuō),漣漪效應(yīng)推動(dòng)了語(yǔ)音辨識(shí)與圖片識(shí)別的發(fā)展,特別是語(yǔ)音識(shí)別的實(shí)用化,更是得益于“漣漪效應(yīng)”。科大訊飛在 2010 年推出語(yǔ)音識(shí)別產(chǎn)品時(shí),識(shí)別率只有 60% 左右,剛開(kāi)始大家都覺(jué)得很難用,但是有一批嘗鮮的用戶。隨著技術(shù)的迭代、更新,以及數(shù)據(jù)持續(xù)的迭代,如今訊飛語(yǔ)音識(shí)別率已經(jīng)提高到 95% 以上,達(dá)到了完全實(shí)用的狀態(tài)。圖像識(shí)別技術(shù)也同樣如此,ImageNet 圖像識(shí)別任務(wù)在 2012 年時(shí)錯(cuò)誤率高達(dá) 26.2%,但是到 2015 年底已經(jīng)降到了 3.57%?;旧峡梢哉f(shuō),圖像識(shí)別技術(shù)的發(fā)展使得我們只要通過(guò)一個(gè)攝像頭,就能將家中的各種物體很輕易地分辨出來(lái)。
因此,可以得出兩點(diǎn)結(jié)論:深度神經(jīng)網(wǎng)絡(luò)與大數(shù)據(jù)的結(jié)合已成為當(dāng)前主流路徑;而基于互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的“研究—工程—產(chǎn)品—用戶”的閉環(huán)優(yōu)化加速了產(chǎn)品迭代優(yōu)化的進(jìn)程。
當(dāng)然,對(duì)于人工智能領(lǐng)域的創(chuàng)業(yè)者來(lái)說(shuō),產(chǎn)品創(chuàng)新、系統(tǒng)創(chuàng)新以及商業(yè)模式的創(chuàng)新也都是非常重要的。從技術(shù)層面看,產(chǎn)品創(chuàng)新與系統(tǒng)創(chuàng)新是相對(duì)立存在的,產(chǎn)品創(chuàng)新可以是一些微創(chuàng)新,而系統(tǒng)創(chuàng)新所需的資金和時(shí)間耗費(fèi)都很大,從沒(méi)有到開(kāi)始立項(xiàng),到最后商用需要 15~20 年,基本上創(chuàng)業(yè)者一輩子只能做出一個(gè)。從公司競(jìng)爭(zhēng)角度看,現(xiàn)在的人工智能公司競(jìng)爭(zhēng)不是單獨(dú)兩個(gè)公司,而是生態(tài)系統(tǒng)的競(jìng)爭(zhēng)。比如創(chuàng)業(yè)公司很難獨(dú)立把人工智能做好,于是各大公司都要做人工智能平臺(tái),包括科大訊飛的語(yǔ)音開(kāi)放平臺(tái),現(xiàn)在已有 23 萬(wàn)開(kāi)發(fā)者,每天服務(wù) 30~35 億次,連接的數(shù)目達(dá) 90 多億。
同時(shí),在這個(gè)過(guò)程中,商業(yè)模式的創(chuàng)新非常重要,即好的技術(shù)創(chuàng)新一定要配合好的商業(yè)模式創(chuàng)新。高科技企業(yè)的早期市場(chǎng)和主流市場(chǎng)之間存在著一條巨大的“鴻溝”,能否順利跨越鴻溝并進(jìn)入主流市場(chǎng),成功贏得實(shí)用主義者的支持,就決定了一項(xiàng)高科技產(chǎn)品的成敗。破壞性創(chuàng)新之父——克里斯坦森提出:“大公司卓越有效的管理對(duì)于延續(xù)性創(chuàng)新的成功具有決定性的作用,而破壞式創(chuàng)新能夠讓創(chuàng)業(yè)公司和小公司擁有顛覆現(xiàn)有產(chǎn)業(yè)鏈的能力!”
最后,我想給創(chuàng)業(yè)者提點(diǎn)個(gè)人建議:去玩兒的事業(yè)一定是你真心喜歡的事情,如果你去玩兒還不選你喜歡的事情,我想你一定是神經(jīng)病;去玩兒的事業(yè),一定要跟你喜歡的人一起去做,玩耍的過(guò)程比結(jié)果更重要。謀事在人成事在天,能成為馬云和馬化騰是歷史的必然,但成為這兩個(gè)具體的人一定有很多未然的因素;改變你能改變的,接受你不能改變的。所以,我覺(jué)得人工智能創(chuàng)業(yè)不管是做系統(tǒng)創(chuàng)新,還是做產(chǎn)品創(chuàng)新、微創(chuàng)新,我們要以這樣的心態(tài),真正去享受到我們生活中的每一個(gè)小細(xì)節(jié),同時(shí)要有使命感與宏偉藍(lán)圖!
評(píng)論