中科院計算所研究員山世光:AI人才稀缺,開發任務繁重,限制了深度學習落地

中科院計算所研究員山世光:AI人才稀缺,開發任務繁重,限制了深度學習落地

鈦媒體注:鈦媒體T-EDGE國際年度盛典,作為鈦媒體年度最重要、在科技領域最舉足輕重的年度國際峰會,每一年年末希望能夠對當年發生的和未來可能發生的做一些重要盤點和預判,同時,搭建一個平臺通過線上線下交流,助力全球前沿創新者的價值發現與落地。

圖像識別或者人臉識別是今年以來AI實現最大爆發的領域。對於這些技術的實現,中科院計算所研究員、中科視拓創始人、董事長兼CTO山世光,將其歸結為一個簡單的公式,那就是“A+B+C”。A是算法,B是Bigdata,C是Computing。

12月16日,在2017鈦媒體T-EDGE年度國際盛典上,山世光提到,2012年之後,因為互聯網和物聯網的發展,我們有更多機會收集大量數據,再加上GPU等高性能計算設備的普及,我們有機會完成大規模的機器訓練。特別的,上面ABC三點中的A,即算法,最主要的就是指深度學習(Deep Learning)。

深度學習在計算機視覺領域,解決了或者推動了一大類非線性的映射函數學習的問題。這樣的方式,使AI開發的方法論產生了極大變化。

但與此同時,從落地角度來看,依賴於有標註大數據的深度學習也還存在非常多問題。

首先,個性化需求非常多,可批量複製的“標品”比較少。以巡邏機器人為例,可能需要開發塑料瓶子檢測系統,也可能是塑料袋識別,甚至是爛白菜的識別,這麼多不同的物體的識別是非常重的開發任務。

其次,從計算角度講,深度學習的計算成本比較高,端側的計算能力需求較大。而且AI技術的生產效率現在還比較低。如何加快生產效率,需要大量懂深度學習的專業算法人才,而現在並沒有這麼多的人才儲備。

現階段,AI人才奇缺。行業的碩士畢業生大概30-50萬年薪,博士是50-80萬年薪。對比人才數量的稀缺,開發任務卻十分繁重,如果每個任務都做要3-5個月才能完成,這是"災難性"的事情。(本文首發鈦媒體,作者/張葉)

以下是中科視拓創始人董事長兼CTO山世光演講發言,經鈦媒體編輯發佈:

非常榮幸有機會來到鈦媒體今年的年度盛典給大家做一次分享。

如果說創業,我是一個新兵。我在中科院系統工作了20年,從事基礎研究和應用技術研發工作。我今天的分享有很多內容跟技術相關。我演講的題目叫《計算機視覺技術現狀展望和產業化》。

首先,我們說計算機視覺是什麼樣的學科,要做什麼的事情?

很多人不瞭解這件事為什麼那麼難?如果看一下我們需要處理的對象,就會發現它確實是非常難的任務。

我們所謂的圖像是用攝像頭來捕捉物體表面反射的不同顏色的光,進行採樣,每個點即像素都用紅綠藍三個不同的分量數值表示不同的顏色。所以,到了計算機裡面,每幅圖像就是很多很多0-255之間的整數值。大家看這些數。相信沒有一個人在非常短的時間內,能夠通過觀察這些數告訴我圖像裡的內容是什麼。計算機視覺要完成的就是這樣的任務,通過對這些數的分析完成對圖像內容的理解。

這次人工智能的浪潮,首先在語音識別和圖像識別領域取得了顯著的進步,並進一步引發了AI在更多領域的應用。

從圖像識別或計算機視覺角度講,在2012年,深度學習首次在Imagnet評測數據集上應用,一下子將分類錯誤率降低了10個百分點。從圖像分類的角度來講,在2011年,圖像分類錯誤率是26%,到了2012年,利用深度學習之後,下降到16%。到了2016年,隨著深度學習模型深度不斷加深,錯誤率進一步下降到了2.3%。也就是說,大概在5年時間裡,圖像識別率的錯誤率降低了10倍。

下面是其他五個深度學習帶來重要進步的典型例子。

  • 在物體檢測領域。所謂物體檢測就是提供給一張照片,把照片裡不同的物體,如車、人等物體框出來。2013年,在Imagnet測試集上檢測正確率只有23%,到了2017年,正確率達到了73%,在視頻裡尋找30類物體也達到80%的精度。
  • 在視頻監控領域,我們希望能夠對人、車、物進行檢測識別,利用深度學習,現在很多系統包括中科視拓的技術都可以實現對人、車、騎行的準確檢測、跟蹤以及對性別、車型等屬性的大致分類。
  • 在圖像分割領域,例如為了實現自動駕駛,給一幅圖像之後,我們希望算法能夠知道哪塊是道路、哪塊是樹木、哪塊是建築,這是一個分割問題。從2013年到2017年,分割的準確率也從50%提高到了86.9%。
  • 還有一個任務從2015年左右才開始逐漸得到重視,即所謂的“看圖作文”,就是在提供一幅圖像之後,希望計算機能夠生成一句或一段文本描述圖像裡的內容。在過去兩三年裡,這一技術得到了非常大的進步,有些系統產生的文本描述已經可以和人對這個圖像的描述媲美,甚至有些普通人已經不能夠判斷到底是機器自動生成的一段話,還是真人寫出來的一段話。實現這一任務採用的方法也是以深度學習為基礎的。
  • 還有一些類似藝術創作的技術進展,比如我們可以通過計算給一幅圖像轉化風格,把一個人的頭髮顏色改掉,加上一個劉海,或者加上眼鏡,所產生的圖像可以以假亂真;我們也可以把一副普通的圖像變成莫奈風格的油畫,把馬變成斑馬,把冬天的照片變成夏天的照片。

上個月,iPhone X的發佈使我們進一步對人臉識別應用有了更加深刻的認識。其實在人臉識別領域,過去兩到三年,也出現了2-4個數量級的錯誤率下降。蘋果聲稱iPhone X所採用的FaceID錯誤率大概在百萬分之一,意味著如果有一百萬個人撿到你的手機,只有一個人可以冒充你解鎖成功。因為它採用的傳感器是RGBD相機,裡面不僅有彩色照片,還有深度信息、近紅外信息,同時在註冊階段也會捕捉你的多幅照片,以及在識別階段也是近距離進場的識別等等,這些方式都使得iPhone X的FaceID識別任務成為人臉識別領域一個相對比較容易的任務。其實三星Note3幾年前就已經可以用人臉識別解鎖,華為也在去年與我們合作將人臉識別應用到了其榮耀Magic手機上去實現對手機的半解鎖。

其實人臉識別有非常多不同的應用場景,手機的應用只是其中之一,即使是一比一驗證你是不是你的任務,也有不同的應用場景。比如,在機場、車站等應用場景,用身份證中的卡內人臉照片和持卡人人臉比對,在過去3-4年裡錯誤率大概下降了2-4個數量級,達到了萬分之一甚至更低的錯誤率,即有一萬個人試圖冒充你,只有一個人可能成功,在這種情況下,本人持自己身份證可以有95%以上的正確識別率。企業員工刷卡後進行人臉驗證的正確率則可以高達99%。

對於這些技術背後的AI,如果我們用一個簡單的公式來表達,那就是“A+B+C”。A是Algorithm即算法,B是Bigdata大數據,C是算力Computing。我想這樣的公式或這樣的說法,最近一段時間大家都越來越熟悉了。這三者中,A即算法,最主要的就是指深度學習算法了。

所謂深度學習其實並不是新的技術,在上世紀八十年代中後期的時候,理論、方法就基本成熟,但因為當時沒有大量數據,沒有足夠強的計算能力,這就使在當時我們不可能發揮它的作用。

2012年之後,因為互聯網和物聯網的發展,使我們有更多機會收集大量數據,再加上有GPU等平民化高性能計算設備的出現,使我們有機會完成大規模的深度學習算法的訓練。

深度學習在計算機視覺領域,解決了或者至少推動了一大類非線性的映射函數學習的問題。換句話說,給我們一張照片,這些照片就是一些數值,形成輸入x,我們通過深度模型學習一個F函數,用F作用於x,即F(x)得到我們想要得到的Y,這個Y可能是一個標籤(比如貓,狗),也可能是我們想要分割的結果。

這樣的方式,使我們做AI的方法論產生了極大變化。從過去,我們大量依賴人類專家知識來設計算法,到現在,變成有大監督大數據驅動的方法為主。

以一個具體的應用需求為例(從客戶那挖掘出來的案例)。

我們一個客戶做了小區巡邏機器人,物業希望這個機器人可以幫助解決小區管理中的一個痛點問題。小區裡經常有小狗亂拉屎,所以物業需要一個狗屎檢測系統。這樣的話,巡邏機器人可以及時發現這樣的垃圾,然後“報警”,由保潔及時來清除掉。

在沒有深度學習的時候,我們需要做的是:

  • 第一步,收集一定量的包含狗屎的圖像數據。
  • 第二步,人工設計或選擇一些特徵。
  • 第三步,選擇某種分類器在收集的數據集合上測試它,看它效果好不好。如果不夠好就回到第二步,不斷進行反饋和調整。

這是一個人工設計特徵的過程,這樣的方式非常耗時,非常不高效。我們做人臉檢測花了20年,做行人車輛檢測大概花了10年,即使狗屎檢測相對容易,可能也需要至少一年。深度學習來了之後,整個過程變得很不一樣。如果我們採用眾包等方式,可能在一個月時間裡就可以收集上萬張標註了狗屎的照片,然後算法工程師可以根據經驗選擇一個深度學習算法,並設定一些超參數,然後只需要讓機器在收集的數據集上進行訓練和學習就可以了,這個過程可以非常快速的完成,大概只需要三個月。從過去的數年到現在的數月,顯然大大提高了我們研發一項AI技術的效率。

這樣的方法論極大的提高了視覺技術的水平和落地效率。

我認為很多場景下能看的AI才有真的智能。所以,視覺智能會有大量場景化需求,如果我們去細看每一個領域,從公共安全、機器人、自動駕駛、無人機到醫療,每個領域我們都可以非常輕易的發現視覺的用武之地。如果AI有一雙眼睛(也就是有攝像頭),我們背後有合適的算法,機器就可以更多的替換或者輔助人更好、更高效的做我們想要它做的事情。

但從落地角度來講,也存在非常多問題。

  • 問題一:個性化需求非常多,可批量複製的“標品”比較少。

以“狗屎”識別機器人為例,可能明天還需要一個塑料瓶子檢測,後天是塑料袋識別,再後天是白菜識別,這麼多不同的物體,如果我們都採用前面說的那種開發方式,每種東西需要至少三個月,那麼我們就會面臨非常重的開發任務,關鍵是現在並沒有這麼多人才可以去做這麼多事。

從落地角度來看,誰來做、誰去買單、誰去開發算法,採用什麼樣的商業模式和合作模式都是問題。

  • 問題二:從計算力角度講,深度學習的計算成本相對比較高。時間關係不展開介紹了,最近很多的AI專用芯片市場就是在解決這類問題。

AI技術的生產效率現在是比較低的,我們要加快生產效率,就需要人力,需要高水平的AI算法人才。可是AI的人才奇缺。現在深度學習專業碩士畢業生可以拿到30-50萬年薪,博士則可以高達50-80萬年薪。在座的女孩們,如果沒有男朋友的話,到我們這個領域看一看。

相比可用的人才數量,這麼多的視覺處理任務,如果每個任務都要2個碩士博士做3-5個月才能完成,這將是災難性的事情。

所以,未來我們需要新的方法論,從現在有監督大數據驅動的方法論,變成知識和數據聯合驅動的方法論,為了完成這些事情,我們需要更強大的機器學習方法。使得我們在不同數據條件下也可以獲得穩定、可靠的識別能力,這就體現在我們可能需要利用小數據、髒數據進行機器學習。

此外,用來學習的數據還可能是半監督的數據、弱監督的數據,比如給你一張照片告訴你其中有狗屎,但並沒有明確告訴你這個狗屎在什麼位置,如果我們能有可以充分利用這些數據的更好的機器學習方法,我們才可能更加快速的開發AI技術。

這還不夠,我們還希望有更快捷的AI開發方法。比如我們希望開發一個安全帽檢測的引擎,這是實際需求。我們一旦把這個任務交給機器之後,希望AI生產平臺可以全自動完成全部的開發過程。機器完成這個任務的可能流程是:首先,它會理解這是一個檢測任務,檢測目標是安全帽,然後機器自動在百度上去搜索大量安全帽的圖像,然後在百度上搜索一些關於安全帽的知識描述,例如安全帽多數是圓的,顏色各異,經常戴在人頭上等等。然後,算法就通過對這樣一些數據的自動處理和學習,以及知識的利用完成一個“安全帽檢測”AI引擎的開發。

遺憾的是,從算法的角度來講,以我對該領域學術前沿的瞭解,要達到這樣的目標我們可能還需要5-10年,還不一定100%完全做到那種程度。

在此之前,工業界最靠譜的做法恐怕還是採用“數據暴力”來完成多數類似AI任務的研發。但我們如何解決缺少大量AI算法工程師的問題呢?我認為我們需要一個更強大、更便捷的AI算法生產基礎設施。這樣的基礎設施,就像當年從專業相機到傻瓜相機的歷史演變一樣。

為了讓我們有更多的人才可以開發AI,以滿足大量的視覺智能開發任務,我們的AI生產工具要從Caffe,Mxnet和Tensorflow等只能昂貴的高端人才可以使用的開發工具發展到“傻瓜式”的AI開發平臺。這樣的平臺應該使更多的中低端人才,即使不懂AI、不懂深度學習,也可以經過簡單的培訓,就可以利用自己的私有數據,在這樣的軟硬建基礎設施平臺上,方便快捷的開發出自己所需要的AI技術引擎,並便捷的嵌入自己的業務系統中。

我作為主要創始人成立的中科視拓,自去年8月成立以來,不僅做了大量人臉識別、無人機視覺等計算機視覺技術服務項目,開發了多款人臉識別產品和解決方案。與此同時,我們已經研發了一個稱為SeeTaaS的深度學習算法開發平臺,這個平臺不但在我們公司內部逐步得到了應用,也已經開始提供給我們的B端客戶,使他們也具備了用自己的私有數據訓練自己所需的深度學習算法和引擎的能力。相信這個SeeTaaS平臺會越來越好用,最終實現我們“讓天下沒有難開發的AI”這一夢想!

謝謝大家!

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App