色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          新聞中心

          EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > AI Challenger 開賽:國內(nèi)最大規(guī)模深度學習數(shù)據(jù)集上線,ImageNet 冠軍、Kaggle 大賽優(yōu)勝者加入角逐

          AI Challenger 開賽:國內(nèi)最大規(guī)模深度學習數(shù)據(jù)集上線,ImageNet 冠軍、Kaggle 大賽優(yōu)勝者加入角逐

          作者: 時間:2017-09-05 來源:今日頭條 收藏

            由創(chuàng)新工場、搜狗和今日頭條聯(lián)合宣布發(fā)起的 AI Challenger 挑戰(zhàn)賽,在今年的比賽時間為 9 月 4 日至 12 月 3 日,每雙周評出周冠軍,每個賽題中效果突出的團隊還將進行答辯,角逐總冠軍。目前,報名者已超過 1000 名,參賽隊伍超過 500 支,其中很多人來自國內(nèi)外 AI 實力強勁的高校、公司和機構,不乏過去各類比賽的獲獎者,比如 ImageNet 兩項任務冠軍、天池阿里移動推薦算法大賽冠軍以及 大賽的眾多優(yōu)勝者。

          本文引用地址:http://cafeforensic.com/article/201709/363897.htm

            隨著以 30 萬張圖片為基礎的計算機視覺賽道數(shù)據(jù)集和以 1000 萬對英中對照的句子為基礎的自然語言賽道數(shù)據(jù)集的上傳,第一屆 AI Challenger(AIC)在 9 月 4 日正式拉開帷幕。這個由創(chuàng)新工場、搜狗和今日頭條聯(lián)合宣布發(fā)起的挑戰(zhàn)賽,希望打造中國最大的科研數(shù)據(jù)集與世界級 AI 競賽平臺,推動中國人工智能領域科研創(chuàng)新。

            圖:(左起)搜狗 CEO 王小川、創(chuàng)新工場創(chuàng)始人兼 CEO 李開復、今日頭條顧問兼技術戰(zhàn)略研究院院長張宏江 在 8 月 14 日的 AI Challenger 啟動儀式上

            第一屆 AIC 共開辟了兩個賽道、五個賽題,分別是自然語言/機器翻譯領域的英中機器同聲傳譯(English-Chinese Simultaneous Interpretation)賽題、英中機器文本翻譯(English-Chinese Machine Translation)賽題,以及計算機視覺賽道的場景分類(Scene Classification)賽題、 人體骨骼關鍵點檢測(Human Skeleton System Keypoints Detection)賽題和圖像中文描述(Image Caption)賽題。

            在數(shù)據(jù)集上線前夕,機器之心和 AI Challenger 競賽組委會執(zhí)行委員會成員、創(chuàng)新工場人工智能研究院副院長王詠剛聊了聊,從「發(fā)起人」和「建設者」的角度談了談 AI Challenger 的選題考量、數(shù)據(jù)集建設情況以及長期的展望。

            計算機視覺賽道:更專門化、更貼近商業(yè)應用場景、更有中國特色的賽題設置

            創(chuàng)新工場本次主要負責了計算機視覺賽道數(shù)據(jù)集的建設。去年開始規(guī)劃 AI Challenger 的建設之后,團隊咨詢了大量競賽方面的專家。包括 ImageNet 的發(fā)起人李飛飛、來自 MS COCO 團隊的負責人和在 CVPR 主辦競賽及研討會的研究者。專家們認為:后 ImageNet 時代,需求最大的不再是通用數(shù)據(jù)集,而是和商業(yè)應用場景結合更緊密的前沿領域專門數(shù)據(jù)集。因此,AIC 的團隊通過與中國較為前沿的和視覺相關的領域,如無人駕駛、醫(yī)療影像、安防等從業(yè)者進行溝通,確定了以下這三個更加專門化的、更具有中國特色的數(shù)據(jù)集方向。

            其中,人體骨骼關鍵點檢測在無人駕駛領域和安防領域都有眾多應用場景。無人駕駛需要純視覺方案來感知行人的動作。這里的感知遠比「識別」、「確定位置」要復雜。因為行人的動作模式非常多樣,對行人的動作意圖檢測要遠遠難于對車的檢測。在現(xiàn)在前沿的行人動作姿態(tài)檢測算法中,基于人體骨骼關鍵點的算法是其中一類主流算法,而這類主流算法的準確度還不那么理想。而在安防領域,取得不錯成果的人臉識別課題其實只覆蓋了安防領域中的「身份識別」這一個非常小的場景,而且需要在臉部相對比較清晰、完整的情況下進行。但在更多的場景中,人的臉部都不一定清晰,而且需要分析人的整體動作進行追蹤。在人體追蹤技術里,人體骨骼關鍵點也是其中的重要因素。

            「圖像描述任務是當下的一個熱點方向,因為它的核心是跨模式、多模態(tài)的學習。」王詠剛闡述自己對圖像描述的理解。人工智能現(xiàn)在已經(jīng)能很好地完成感知(perception)任務了,在「從聲音和圖片中識別出內(nèi)容」這項工作上甚至可以取得勝過人類的成果。然而「語義理解」工作方面卻一直未見長足進展。圖像描述任務需要把感知模塊得到的結果用一定方法轉為文本內(nèi)容,是一個從感知到理解的過渡項目。當前的圖像描述一般以 MS COCO 數(shù)據(jù)集為標準數(shù)據(jù)集,MS COCO 是一個包含 14 萬張圖片的數(shù)據(jù)集,每張圖片有 4 - 5 句英文描述。在此基礎上,AIC 希望建設一個中文的圖像描述數(shù)據(jù)集,第一檢測現(xiàn)有的算法應用到中文數(shù)據(jù)上效果如何,第二嘗試在此基礎上是否能做出有針對性的算法來增強效果。

            圖像分類任務是上兩個問題的「副產(chǎn)品」,人體骨骼關鍵點監(jiān)測和圖像描述都涉及了大量的場景,AIC 把其中的典型場景和一些可能帶來挑戰(zhàn)的場景結合起來,篩選了 80 個場景下的 8 萬張圖片,設計了一個相對簡單,可以讓更多對感興趣的人參與進來的問題。

            人體骨骼關鍵點和圖像描述的標注難度都遠大于 ImageNet 傳統(tǒng)的物體檢測、定位標注。創(chuàng)新工場以及其他兩家合作伙伴在數(shù)據(jù)集的建設上投入了大量的人力物力,與多家團隊合作完成了標注工作。機器之心了解到,今年的計算機視覺數(shù)據(jù)標注工作動員了超過 100 名專業(yè)標注員,創(chuàng)新工場也成立了 12 人的質(zhì)檢團隊,專門負責用基線模型對不同批次的標注數(shù)據(jù)進行交叉驗證??偼度胧仟劷鸪赝度氲?4-5 倍,而計算機視覺方向的獎金池規(guī)模累計大于 100 萬人民幣。

            今年的計算機視覺賽道數(shù)據(jù)集(訓練集)以 21 萬張圖片為基礎,其中人體骨骼關鍵點檢測的訓練集中包含了超過 35 萬個人物,使用的圖片覆蓋了超過 250 種日常生活場景,壓縮后數(shù)據(jù)集大小為 14.8G;圖像中文描述的訓練集包含了 105 萬句中文描述,覆蓋了超過 200 種日常生活場景,壓縮后數(shù)據(jù)集大小 19.2G。

            

            圖:人體骨骼關鍵點訓練集中,14 個關鍵點的分布情況。其中,藍色代表「標注且可見關鍵點」,橙色代表「標注但不可見關鍵點」,綠色代表「未標注關鍵點」(關鍵點在圖像外)

            圖:計算機視覺日常場景分布圖,典型場景包括:球場、道路 、運動場、舞臺、房間、大廳、草地等等

            王詠剛:打造越來越全面和多樣化的數(shù)據(jù)集是未來目標

            今年的比賽時間為 9 月 4 日至 12 月 3 日,為期三個月。每雙周會評出周冠軍,每個賽題中效果突出的團隊還將進行答辯,角逐總冠軍。自啟動儀式開放報名以來,平臺已經(jīng)匯聚了來自世界各地的超過 1000 名參賽者和超過 500 支參賽隊伍。他們中很多人來自國內(nèi)外 AI 實力強勁的高校和公司機構,其中不乏過去各類比賽的獲獎者,比如 ImageNet 兩項任務冠軍、天池阿里移動推薦算法大賽冠軍以及 大賽的眾多優(yōu)勝者。

            王詠剛表示,AI Challenger 并非只舉辦一年,而是一個長期的愿景。一家投資、孵化了三十余家 AI 公司的投資機構,兩家以科研、技術能力著稱的互聯(lián)網(wǎng)公司,這三家主辦方承諾在 3 年內(nèi)投入數(shù)千萬元人民幣,建設這個集科研數(shù)據(jù)集與 AI 競賽為一體的平臺。今年開放的兩個賽道五個賽題,也只不過是「萬里長征第一步」。

            「我們的偉大理想是建造一個世界一流的數(shù)據(jù)集,這不是一個一蹴而就的過程,需要幾年的時間慢慢打造?!雇踉亜傉f。第一年,AIC 雖然都是學術研究前沿方向,然而出于謹慎的態(tài)度,只選擇了幾個「點」來進行嘗試。團隊希望在未來,數(shù)據(jù)集能越來越全面和多樣化。王詠剛表示,在數(shù)據(jù)集公布后,他們會將過程和經(jīng)驗整理為論文,在 CVPR 等會議上與研究者交流,更多地搜集研究者對數(shù)據(jù)的需求,為明年的數(shù)據(jù)集建設提供指導意見。

            王詠剛認為,數(shù)據(jù)集建設的路上還有很多高山等待著 AIC 去攀登,這其中包括視頻數(shù)據(jù)、虛擬系統(tǒng)生成數(shù)據(jù)等更多樣化的數(shù)據(jù)形式,也包括醫(yī)療影像數(shù)據(jù)等數(shù)據(jù)集的體量問題,以及數(shù)據(jù)集外的標注成本、版權問題、隱私問題亟待考慮與解決。

            如同創(chuàng)新工場創(chuàng)始人兼 CEO 李開復在啟動儀式上提到的,AI 在我國推進的最大落差就是數(shù)據(jù)的落差。而 AIC 希望以競賽平臺的形式給更多學生、學校、實驗室和新創(chuàng)公司提供數(shù)據(jù)與計算能力,從而提升整個中國的人工智能水平。「希望當我們在三五年后回顧時,當我們看到中美 AI 人才沒有落差時,也許會想到 AI Challenger 在這個重大過程中扮演了一個小小角色。」李開復如是說。



          關鍵詞: 深度學習 Kaggle

          評論


          相關推薦

          技術專區(qū)

          關閉