火爆“智能”下的慘淡“人工”
從人工智能發(fā)展高地北京到代河南鄭州只需要兩個小時的高鐵,那里有中國最大的代工廠富士康。再從鄭州火車站出發(fā),半小時車程,到達(dá) 一棟不起眼的寫字樓,打開一間沒有任何標(biāo)志的大門,就是目前河南最大的人工智能數(shù)據(jù)標(biāo)注工廠翊澳數(shù)據(jù)的總部。
本文引用地址:http://cafeforensic.com/article/201810/393156.htm聚集在北京的人工智能公司里,隨處可見人臉識別機器以及實時的大數(shù)據(jù)熱點圖。但這家數(shù)據(jù)工廠里,并沒有任何智能的樣子,也沒有普通工廠里的流水線,更像是一間網(wǎng)吧——裝修簡單,幾十臺電腦依次排開。
正值午休時間,一半的電腦前面空空如也,還有數(shù)十名員工坐在電腦前,或是吃著打包來的午飯,或是掏出手機打游戲,也有部分標(biāo)注員還在處理一張張模糊或清晰的照片。
數(shù)據(jù)標(biāo)注行業(yè)流行的一句話,“有多少智能,就有多少人工”。目前AI算法能學(xué)習(xí)的數(shù)據(jù),必須通過人力逐一標(biāo)注,這些人力為AI產(chǎn)業(yè)提供養(yǎng)料,這是AI金字塔的基礎(chǔ),處于最底層。
此前,一些數(shù)據(jù)標(biāo)注工廠被冠以“血汗工廠”的名號,為了應(yīng)對龐大的數(shù)據(jù)標(biāo)注需求,標(biāo)注員們必須加班加點的盯著電腦屏幕,夜以繼日的重復(fù)枯燥的工作,但眼前的這個工廠里,似乎有些清閑。
“聽說北京AI很火,我們也想?yún)⑴c進(jìn)來?!瘪窗臄?shù)據(jù)總經(jīng)理靳建偉對《財經(jīng)》記者說。
靳建偉經(jīng)歷豐富,善于追逐潮流。微信最火的時候他做過微信推廣,拼多多起來后在上面賣過襪子,還在關(guān)注短視頻營銷行業(yè),“你知道抖音推廣吧?就是一個后臺可以操縱一百個賬號那種,據(jù)說很賺錢?!?/p>
大多數(shù)AI初創(chuàng)公司還處于依靠融資發(fā)展的階段,但數(shù)據(jù)標(biāo)注產(chǎn)業(yè)更像傳統(tǒng)行業(yè),拿一單數(shù)據(jù)結(jié)一單錢,江湖中流傳的傳說是,這個領(lǐng)域已經(jīng)創(chuàng)造了不少“一夜暴富”的故事。
被這樣的故事吸引,不少像靳建偉一樣的人們加入了這場淘金游戲,但現(xiàn)實給了他們當(dāng)頭一棒。
2018年,河南省的數(shù)據(jù)標(biāo)注公司死掉了一大半,剩下幾乎都在艱難求生,接受《財經(jīng)》記者采訪時,靳建偉已經(jīng)2個多月沒有接到新的訂單,工廠員工從600人,銳減至200人,他覺得自己恐怕需要開始找下一個風(fēng)口了。
撞進(jìn)了AI圈
靳建偉今年28歲,2017年以前,他甚至沒聽說過“數(shù)據(jù)標(biāo)注”這個詞。
他并不懂AI算法和技術(shù),也不太清楚AI到底能解決哪些問題,2017年,他偶然聽說做數(shù)據(jù)標(biāo)注能賺錢,當(dāng)時他正從事證券銷售業(yè)務(wù),由于沒有資質(zhì),公司被關(guān)停,他找到一個賣保健品的朋友,共同成立了這家數(shù)據(jù)標(biāo)注公司。
2017年,中國AI創(chuàng)業(yè)開始達(dá)到頂點。對數(shù)據(jù)標(biāo)注的需求也迅速爆棚。河南是人口大省,數(shù)百家數(shù)據(jù)標(biāo)注公司在此誕生。靳建偉算了一筆賬,一個成熟的標(biāo)注員,月產(chǎn)值能做到7000元,除去3000元的工資和質(zhì)檢、場地設(shè)備等費用,公司能賺1500元。
“那我不斷招人就行,如果招100個人,一個月就賺15萬?!苯▊フf道,“怎么看都覺得這個生意靠譜。”
有電腦,有場地,再迅速招一批沒有學(xué)歷、工作經(jīng)驗要求的數(shù)據(jù)標(biāo)注員,就可以迅速上手。
深度學(xué)習(xí)的關(guān)鍵在于大量的數(shù)據(jù)訓(xùn)練,數(shù)據(jù)訓(xùn)練之前,必須對這些數(shù)據(jù)進(jìn)行明確的標(biāo)注。例如,機器需要識別斑馬線,就必須提供大量標(biāo)注了斑馬線的數(shù)據(jù)來進(jìn)行學(xué)習(xí),數(shù)據(jù)量足夠大時,機器就可以識別出任何角度的斑馬線。
這意味著,在某種程度上,AI算法的優(yōu)化,取決于數(shù)據(jù)標(biāo)注的質(zhì)量,而把控這些質(zhì)量的,是完全不懂AI技術(shù)的一群人。
一名沒有任何經(jīng)驗的標(biāo)注員,通過半天的培訓(xùn)即可開工, 1-2個月之后可變成熟練工,一天就可以完成1500-2000張圖片的標(biāo)注。
需要標(biāo)注的圖片數(shù)據(jù)從客戶提供的數(shù)據(jù)處理平臺上打包下載,根據(jù)不同的需求進(jìn)行標(biāo)注,常見的包括物體識別和人臉識別,物體識別主要是“畫框”,人臉識別則是“打點”。完成后會進(jìn)行一到兩道的質(zhì)量檢測程序,來確保標(biāo)識準(zhǔn)確率,合格后會重新傳送到客戶的數(shù)據(jù)平臺上。
然后,這些數(shù)據(jù)會被應(yīng)用到自動駕駛、AI安防、智能身份認(rèn)證等新興應(yīng)用領(lǐng)域。
依靠這些應(yīng)用,人工智能公司在資本市場頗受追捧,投中研究院發(fā)布的數(shù)據(jù)顯示,2018年上半年,進(jìn)入商業(yè)化階段的中國人工智能行業(yè)已經(jīng)獲得超過400億人民幣的融資。
這400億的資金,僅有極少部分流入了數(shù)據(jù)標(biāo)注行業(yè)。企名片收錄的標(biāo)簽為“數(shù)據(jù)標(biāo)注”的公司共有15家,2018年,這15家公司共完成6筆融資,單筆融資金額約為1000萬人民幣左右,總計不超過1億人民幣。
靳建偉還沒考慮過融資這件事,他聽說北京的AI公司都在以億為單位進(jìn)行融資,但他的思維和之前的數(shù)次創(chuàng)業(yè)沒有區(qū)別,找客戶,做業(yè)務(wù),能賺錢,才是應(yīng)該做的事情。
單打獨斗在當(dāng)下的AI圈很難混得開。由于完全沒有相關(guān)行業(yè)經(jīng)驗,也沒有資本加持,一開始靳建偉只能接二手,甚至三手訂單,也即外包服務(wù)?!耙恍┯星赖墓窘恿擞唵?,自己不做,或者自己做不過來,就分發(fā)給我們做,他們再從中間收取差價?!?/p>
與很多行業(yè)一樣,渠道是核心競爭力,中間商們不需要耗費太多的人力物力,就能賺取可觀的利潤,底層的工廠們,加班加點,只能勉強維持經(jīng)營。
這樣下去可不行。在熟悉了行業(yè)之后,靳建偉開始主動出擊,拓展渠道,試圖繞過中間商。從知名的頭部AI公司開始,到所有他能找到聯(lián)系方式的中小AI企業(yè),他問了個遍。得到的回應(yīng)要么是“不需要”,要么是“我們已經(jīng)有了自己的數(shù)據(jù)標(biāo)注團隊”,更多的是石沉大海,沒有回音。
“人家上來就問你,以前做過哪些項目,我說不上來?!彼軣o奈。
類似商湯科技、科大訊飛這樣的頭部AI公司,都會自建數(shù)據(jù)標(biāo)注團隊,既能方便管理,也能更好的理解需求。
但確實也有大量AI公司,由于團隊人數(shù)、資金成本有限,有外包數(shù)據(jù)標(biāo)注的需求,但大部分都會通過熟悉的渠道尋找標(biāo)注團隊,或者和大平臺合作,例如百度眾測平臺。
百度眾測是百度旗下的一個類似眾包模式的數(shù)據(jù)平臺,2014年在百度世界大會上正式推出,平臺上會分發(fā)各類任務(wù),在行業(yè)內(nèi)稱為“放題”,包括數(shù)據(jù)采集、圖片標(biāo)注、文本標(biāo)注等。
百度在中國人工智能領(lǐng)域起步早,渠道輻射廣,眾測平臺上每天都有大量的數(shù)據(jù)標(biāo)注需求,并且開放注冊,這讓靳建偉看到了機會。
飽一頓,饑一頓
距離鄭州車程兩個小時的河南新鄉(xiāng)輝縣,甚至找不到一棟商用寫字樓。從馬路邊一個毫不起眼的門洞上樓,就是翊澳在輝縣的工廠,也是該公司目前規(guī)模最大的一個廠。
兩層樓,近500平方米的空間里,劃分出了三片工作區(qū)域,但目前僅有一片區(qū)域開工運轉(zhuǎn)。
翊澳下面類似這樣的分廠有十幾個,分布在河南省內(nèi)各個縣市里。
由于百度眾測平臺提供了訂單來源,翊澳幾乎是在一夜之間發(fā)展成這樣的規(guī)模,靳建偉拉來以前一起做證券銷售的同事們,讓他們回到各自的老家成立分工廠,并擔(dān)任負(fù)責(zé)人,“之前一起做過事,已經(jīng)有信任關(guān)系,下面這些地方場地租金更便宜,員工工資也低,更省成本?!?/p>
評論