機器視覺知名教授山世光：面對AI，人類的機會在哪裡？

人工智能機器學習深度學習大數據 36氪 2017-05-24

5月21日，在音樂，科技與藝術相結合的MTA天漠音樂節，投身CV領域創業的中科院計算所山世光教授，從計算機視覺的視角與我們分享了這一輪人工智能熱潮的特點，以及他本人投身創業後的一些進展。

首先，山世光教授從事實層面列舉了我們應用計算機視覺技術的一些例子，計算機也已經開始能夠執行像我們小時候進行的“看圖說話”的語言任務，這就是自動圖題技術。而最典型的應用可能就是時下諸多公司參與的自動駕駛。此外，近五年來，計算機分類識別物體的錯誤率基本上都是以每年下降一半的速度在提升。

而計算機視覺技術的進步，得益於3大引擎的推動作用：1.GPU的普及所帶來的計算能力的提升；2.大數據的運用；3.深度學習算法的復興。

針對人工智能的探討，永遠引人入勝的話題還包括人類和智能的比較。對這一類問題，山世光教授也分享了他的認識。

他引用了李開復老師在公開發表過場合的觀點：10年後，人工智能會取代世界上很多職業，50%的工作都可能被取代，其中包括翻譯、記者、助理，包括保安、司機、銷售等。

或許觀點上存在“仁者見仁，智者見智”，那麼究竟如何評判什麼職業會被取代，這就先要解答AI更容易在哪些領域超越人類，又在哪些地方還有待突破。

山世光教授介紹，AI擅長的是通過大量的數據進行歸納學習。而人類學習除了歸納法外，還包括演繹推理，但需要推理的部分，深度學習目前還沒有辦法解決。通過自我判斷對錯的增強學習，也是目前機器無法做到的。所以現階段的AI，比較適合於數據採集、獲取、標註比較便利的領域，包括計算機視覺、語音識別等領域。

由此可見，AI容易超越人類的領域有兩大類別：第一類是巨量空間的搜索問題或者檢索問題；第二類是通過經驗習得技能的領域，如自動駕駛、醫療讀圖。

那麼，人類的機會在哪裡？山世光教授認為，儘管人類在認知能力沒有像機器一樣日新月異的進步，但人腦除了數據學習能力外，還有邏輯推理能力。人類能夠主動為自己設計算法模型，還能夠主動收集數據。通用的AI還沒有出現的跡象，當前的AI都是針對特定領域的。

最後，山世光教授分享了他本人投身創業後的一些進展。他在去年創辦了中科視拓，為各行各業的用戶、客戶，提供基於私有數據，生產自己的AI引擎的能力。目前他們已經為華為做了手機裡的人臉識別，也與中國移動、中國平安等客戶進行了合作。

以下是山世光的演講原文：

大家好！我是來自中科院計算所的山世光。在大概2、3年前，我們進入了新一輪的人工智能的熱潮，我們稱之為第三次人工智能的熱潮。我下面從計算機視覺，也就是我們希望機器能夠像人一樣看世界的視角來探索一下人工智能這一輪熱潮有什麼特點。

首先，簡單舉幾個例子，計算機視覺，也就是說在機器有了攝像頭之後，它可以做什麼？比如說，最典型的例子，自動駕駛，或者是汽車輔助駕駛裡，特別是以特斯拉為代表的自動駕駛的，或者是輔助駕駛的，已經可以實現對道路上的汽車、行人、車道線等這樣一些物體的檢測、識別。同時，利用檢測到的車、人，能夠幫助我們進行駕駛。

例子二：從計算機視覺做算法的角度來講，在過去3、4年時間裡，我們可以明確地看到，從2012年到2015年，我們讓計算機正確的分類它所看到的物體是什麼這樣一個問題上，錯誤率基本上都是以每年下降一半的速度在提升。

例子三：自動圖題技術

我們可以想象成，給大家一張照片，讓機器自動描述，或者寫一段話來介紹這張照片裡有什麼樣的內容。比如說有一張照片，機器可以自動生成一句話來描述這是在一個開放的市場上，有很多人在購物（菜市場）。這是類似於我們小時候看圖作文的任務，這也是計算機視覺非常重要的任務。

大家在過去1、2年裡，每年刷臉的次數也在不斷增加。我相信，在未來的時間，我們每年刷臉的次數，在明年也許會增加到10次，未來會是上百次，甚至是更多的場景。我們用這樣一個系統來刷你的身份證，來判斷你是不是這個身份證合法的持有人。

這樣一些計算機視覺技術的進步，有三大引擎在起作用：1、非常強大的計算能力，這一點大家已經看到了，特別是GPU的普及，使得我們可以訓練非常複雜的算法。2、大數據。人臉識別系統，谷歌採用了800萬人兩億張照片來訓練他們深度學習的模型。這一點，地球上任何一個人都不可能在這一輩子見到這麼多的人，用來訓練自己大腦裡的人臉識別算法。我們的系統可以通過刷身份證判斷他是否是合法持有人。

從算法角度來講，就是深度學習的技術。深度學習並不是一個新的發明，而是一個復興，就像文藝復興一樣，在很大程度上是對過去的歷史的覆盤。神經網絡、深度學習是上世紀80年代末期所流行的多層神經網絡進一步的拓展。當它跟大數據、超級計算及聯姻之後，它的威力發揮了起來，所以，使得有了今天的技術進步。

在過去2、3年，有很多AI的問題、任務。計算機逐漸超越了我們人類智能。這一點也是歷史的必然，其實在很多方面已經發生了。比如說，大家剛才看到的我們刷身份證，去判斷是不是你這樣一個任務。目前，計算機可以做到在一萬人試圖冒充你的時候，我們有95%的概率可以被正確識別。

AI在什麼領域可以超越人類？人工智能主要依賴的算法是深度學習的方法。深度學習適合的問題是，我稱之為叫“數據肥沃”，而且是好數據肥沃。好數據肥沃意味著我們有大量的數據可以進行歸納學習。

我們人類的學習除了歸納學習之外，我們還有一種學習叫演繹推理，或者是演繹學習。比如說看歐幾里得幾何原本，這是通過推理得出的。目前來說，深度學習適合的只能從數據來學習。它比較適合於數據採集，獲取、標註比較便利的領域。比如說現在做計算機視覺、語音識別，或者是有越來越互聯網化的領域使得我們收集數據可以更加的便利。但是需要推理的，目前來說，深度學習沒有辦法解決。

去年發生著另外一個重要的AI事件，就是阿爾法狗戰勝了圍棋冠軍，阿爾法狗裡的深度學習起到了80%的學習，其實還有另外一種技術，叫增強學習。它是適合於可以自動判斷對錯的領域，但是並不適合解決計算機視覺識別的問題。機器是不可以自我判斷的，這就很難通過對自己做的對錯的數據積累進行增強的學習。如果是完全交給機器，讓它自己增強，目前的算法會導致它學偏，可能會走火入魔，學傻了。

最近一段時間，李開復老師在很多場合介紹過，他認為10年後，人工智能會取代世界上很多職業，50%的工作都可能被取代，其中包括翻譯、記者、助理，包括保安、司機、銷售等。仁者見仁、智者見智，有很多專家也並不認可所有的職業真的這麼輕易的就會被我們AI取代，但是確實也有很多的行業，現在越來越多的可能會受到AI的威脅，比如說保安。

這是我們在一個單位裡，他們現在用我們的人臉識別技術來做門禁，整個集團有1萬多人，他可以通過對每一個來上班的人進行開門、考勤（人臉識別技術）。這個系統也在剛剛運行，我們也相信，當這個系統把所有的員工變成熟人的時候，這肯定會比我們人類的保安要好很多。一個好的保安可以認1、2000人，但是對於上萬人的企業來說還是很難的。

什麼領域會逐漸被AI超越？一類是巨量空間的搜索問題，再就是檢索類的，比如說圖像的檢索，這對機器來說都是小菜一碟，對我們人類來說就沒有那麼容易了。再就是經驗、技藝依賴的領域，也就是所謂的見多識廣，通過經驗學習、習得的技能領域，都可能逐漸的被AI取代，比如說人臉識別、物體識別，或者是自動駕駛，這也是一個經驗的問題，比如說醫療的讀圖。

我們人工智能可以結合幾百個頂級的醫生，通過對這些對這些片子的學習就可以超過很多有經驗的醫生。客服的問答很多也是半重複性，或者是完全重複性的。所以，人工智能完全有可能從歷史的經驗當中來學習這樣一些技能。

大家也會問這樣一個問題，超越人類智能，是不是必須要知道人的大腦是如何工作的，我們才能夠做出來超越人類的能力算法？事實上，我們人類的大腦是如何工作的，目前還是一個非常神祕的事情，這也是非常值得研究的課題。好消息是說，其實我們並不需要去類腦，如果我們只能堅持一個類腦的路線，我們反而不能夠超越人。

我們現在的AI可以簡單的總結成一個算法，或者是模型，加上數據的方法，這樣的方法論使得我們的機器從大量的數據裡，比我們人類見的更多的數據裡，學到我們人類不能理解的，但是它會優於人類的表示和分類方法。

比如圍棋，因為阿爾法狗的出現，我們的圍棋專家、圍棋選手，自己已經開始突破過去的一些思維框架，向阿爾法狗學習。也下出了在過去認為不太好的棋，但是發現，這樣一些棋招反而更好。

所以說，是不是像人？並不是這個算法好或者是不好的標記。比如說人臉識別的系統，現在我們完全不知道機器到底通過這樣大量的學習，學出來了什麼樣的特徵，可以做得比別人好。這一點，已經超出了我們人類可以理解的範疇。

人類的機會在哪裡？人類的智能，除了算法，我們大腦了有一個算法，有數據的學習之外，我們還有邏輯推理。相比機器，我們的算法和模型是我們自己可以設計的。非常重要的特點是，我們的數據是我們主動收集的，並不是像目前的機器學習算法一樣是被動的，你給它什麼樣的數據，它就學習什麼數據。

我們人類在很多時候也有一些非常有趣的特點，比如說我們的視覺智能，有時候我們的錯誤本身也是我們智能非常重要的一部分。在左邊這張圖裡，大家可以看到的，這個塊和這個塊的亮度是一樣的還是不一樣？我相信沒有一個人真的可以看出來這兩個塊的亮度是一樣的。如果你覺得這兩塊的顏色確實一樣的話，我相信你的大腦可能出現了問題，需要去看醫生。

上面這個塊的顏色和這個塊的顏色也是一模一樣的，但是我們不會有人感知到這樣一個正確的結果。事實上，我們可以認為這個世界是我們自己想象出來的。但是，這種想象是目前的機器很難具有的，讓機器判斷這兩個問題，它也可以非常準確的判斷出這兩個的答案。

我們理性的度量AI的進步，在很多方法我們也需要注意。我們看到了很多的進步，但是都是特定領域的進步，通用的AI還沒有出現的跡象。感知能力也是日新月異的，但是我們的認知能力並沒有太大的進步。所謂的感知能力就是看的能力、聽的能力等。還有一點，我們目前階段的AI不可以自己學，更不能自己主動的去學。

這意味著當前的AI都是領域、經驗、數據依賴的，決定它只能是特定領域的AI。通用的AI軍在何方？包括學術界也沒有非常準確的答案。

現在必然是一個春秋戰國的時代，各個行業的AI應用也會百花齊放，但是大秦統一全國的時刻還遠遠沒有到來，很多行業都需要自己AI引擎的生產能力。

我本人在去年的時候也創立了一家公司，我們稱之為中科視拓，我們有一箇中西合併的名字，叫C他（音），我們搭建這樣一個平臺，提供這樣的服務，為各行各業的用戶、客戶，提供基於私有數據，生產自己的AI引擎的能力。我們為華為手機裡的人臉識別，包括中國移動、中國平安等一些大的客戶提供引擎、賦能的能力。

簡單總結一下。在過去幾年時間裡，感知進步帶動了整個AI的熱潮，應該說，傳統的行業利用AI可以有一個非常好的升級機會，但是通用的AI還需要時日。所以，深度學習在某種意義上來講，我們認為它需要基礎設施化。這也是中科視拓成立的非常重要的目標，希望能夠走向AI技術設施化的一條道路，謝謝大家！

機器視覺知名教授山世光：面對AI，人類的機會在哪裡？

相關推薦