賈佳亞專訪：引領科技創新，走出計算機視覺技術的落地之路

技術人工智能無人駕駛體育算法金融上海文化大學工程師香港中文大學騰訊攝影張江評論 2019-05-27

2019浦江創新論壇·科技創新青年造就者圓桌峰會5月24日在上海召開。科技創新青年造就者圓桌峰會，以“洞見未來——最值得關注的N個領域”為主題，邀請具有全球視野和影響力的青年科學家與科技創業者，分享他們在所屬領域的成果與思考，通過跨界碰撞，共同探討如何在未來創造更多可能性。

香港中文大學終身教授、騰訊傑出科學家、騰訊優圖實驗室主任賈佳亞以“AI引領科技向善”為主題，分享了他對人工智能技術以及應用的觀點，探討了在人工智能發展的過程，“如何利用人工智能技術做到真的科技向善”。

人工智能（AI）代表著未來發展趨勢，而計算機視覺則是人工智能最為有力的表現形式，近年來取得了很多突破性成就。計算機視覺技術是人工智能的重要核心技術之一，可廣泛應用於安防、金融、互聯網、物流、零售、醫療、製造業等領域。目前，我國計算機視覺技術水平已達到全球領先水平，廣泛的商業化渠道和技術基礎使其成為人工智能在中國落地最順利的技術。未來，計算機視覺技術還將取得哪些突破性進展，有哪些應用場景？這些代表人工智能前沿方向的技術如何真正落地？《張江科技評論》對賈佳亞教授進行了專訪。

賈佳亞
香港中文大學計算機科學工程系終身教授，電機及電子工程師學會（IEEE）院士，騰訊優圖實驗室傑出科學家。計算機視覺領域最著名的專家之一，研究方向為計算機視覺、圖像計算和處理、機器學習等，曾發表過逾百篇頂級會議和刊物論文，創立的視覺實驗室對圖像濾波、圖像去模糊、圖像增強、圖像稀疏處理、多頻段圖像信號的融合，以及大範圍運動估計等研究做出了巨大的貢獻。

【Q】您作為計算機視覺的領軍人物，請介紹一下計算機視覺有哪些應用場景，以及未來的行業發展趨勢。

【A】計算機視覺的研究目標是使計算機程序能夠解讀和理解圖片，不僅是理解圖片的顏色，而且是更高層地理解圖片的語義及特徵。人類大腦約有50%的視覺皮層，大腦分配給視覺處理的部分超過其他任何功能。在AI領域，計算機視覺是最重要的研究方向之一，代表著信息的多樣性和能夠獲得的可用信息。但是，正所謂知易行難，計算機視覺聽起來很容易理解，技術上實現起來卻非常困難。

隨著人工智能的落地發展，機器視覺在需求和應用方向上有了非常大的發展剛需。視覺技術在應用上的重要性和多樣性在各個行業內得到印證。例如，在現今最靠近企業業務和消費者需求的AI技術中，人臉的各類識別和預測、自拍照相產生的各種效果、圖像視頻上的物體檢測分割、文字識別、各種運動行為姿態估計、事件感知等都得到了極其迅速的發展。在產品落地和未來發展層面，手機端的應用、智慧城市領域的應用、未來自動駕駛的主要感知部件、穿戴式設備的應用、醫療診斷的發展等都離不開在視覺AI領域的突破。

作為這一主要方向最前沿的研究人員，我們對這些方向都有很深入的投入，這幾年的應用產出也很驚人。我們對AI發展的應用場景貢獻，包括自動駕駛的核心感知技術、智能醫療的關鍵性算法和數據分析、工業自動化智能化的深入推動和理解、社交娛樂的人臉人體技術等。我們還在其他社會發展進步中的各個環節貢獻自己的力量，包括傳統文化保護傳承、社會尋人系統搭建等。

【Q】從給照片化妝卸妝，到自動駕駛與醫療，計算機視覺越來越成為AI領域中重要的落地項，請您介紹一下您和您的團隊在AI領域的最新進展，如何將這些技術成果落地和產業化？

【A】在圖像生成和編輯方面，我們從不同角度做了一系列工作，包括人臉卸妝、人臉屬性編輯乃至更為通用的圖像到圖像轉換。在人臉卸妝方面，我們注意到不同的人臉美化效果從不同的尺度對人臉進行編輯。對於一張美化後的圖像，傳統的模型很難同時復原這些不同尺度的編輯。因此，我們在2017年國際計算機視覺大會（ICCV）上提出了一種新的深度網絡架構，深度迴歸網絡，對美化圖像進行盲復原。該網絡可以在不知道美化系統具體參數的情況下，更好地將美化後的圖像映射為原始圖像。

除了人臉卸妝之外，我們在2018年和2019年計算機視覺與模式識別會議（CVPR）上更進一步地解決更為通用的人臉屬性編輯問題。目前，解決這個問題的主流方法是生成對抗網絡，但我們注意到生成對抗網絡的結果不夠穩定，所以在2018年CVPR上，我們提出一種基於深度特徵插值的框架來解決這個問題。這個框架可以更快、更穩定地轉換人臉屬性，如年齡、性別、鬍子等。我們在這個框架的基礎上，在2019年CVPR上進一步提出了一個語義成分分解的網絡。這個網絡可以把一個人臉屬性分解為多個子屬性，從而可以更加靈活地編輯人臉屬性。例如，之前的方法在把一個男性人臉變女性人臉的時候，只能把所有跟男性相關的屬性轉換成女性的，而現在通過語義成分分解，我們可以自動地分析出男性與女性有哪些屬性需要轉換，並可以選擇性地轉換其中某些特徵。

在2019年CVPR上，我們還提出了全新的框架用於不成對的圖像到圖像轉換工作，在人臉上也非常有效。相對於目前存在的框架來說，這個工作可以實現對多個屬性、多種模態的連續編輯。這一系列工作對我們的產品是非常有用的。一方面，這些算法的本身可以大大擴展人臉編輯軟件的功能，讓“P圖”變得更簡單、更智能；另一方面，這些算法可以合成非常多的人臉數據，這對其他工作，如人臉識別等問題具有潛在的意義。

在自動駕駛方面，我們有深厚的技術積累，接連斬獲多個國際頂級賽事冠軍，如常見物體圖像識別（MS COCO）和AutoNue的實例分割冠軍，以及ImageNet語義分割冠軍，這些都展現出我們先進的感知技術。近期，我們又首創道路場景的Amodal實例分割任務，並且在權威數據集KITTI上面斬獲3D點雲車輛檢測第一名的成績。這些先進的技術都已經在自動駕駛相關的業務上落地。例如：更加準確與高效的3D點雲檢測算法已經在我們的自動駕駛車輛上穩定運行，提供感知核心能力；準確率更高的大模型也在數據預標註方面發揮自己的優勢，極大地提升了標註效率。

在醫療AI方面，我們從實際應用出發，針對醫療健康中的痛點，聯合騰訊覓影推進多個醫療AI產品的落地進程。例如：我們開發的眼底疾病自動診斷系統，可以根據一張眼底照片迅速精確地對多種眼部疾病及全身性疾病進行判別，目前已經部署在多家基層醫院與社區健康服務中心；我們開發的肺癌篩查產品，可以自動進行肺葉定位、肺結節檢出、結節性質分析等全面診斷，落地數十家三甲醫院，節省醫生時間，降低重複勞動強度。除了落地產品之外，我們還注重科研投入，在肝部、腦部、女性宮頸癌和乳腺癌篩查等研究方向都有所突破。例如：我們的肝癌分割獲得了國際競賽冠軍；我們的出血性卒中病因判別作為國際上首款應用，輔助醫生極大地提高診斷準確程度。總體來說，我們致力於完善現有技術，創新更有效的方法，打磨產品質量，豐富產品功能，實現騰訊在醫療AI領域從無到有、小步快跑、逐步走向極致的目標。

【Q】在技術成果落地的過程中，您遇到過哪些困難？是如何克服的？

【A】我剛加入騰訊優圖實驗室的時候，在深圳組建了一個團隊，當時其他團隊並不清楚我們以後能拓展的範疇和領域，而且技術上需要研發投入和找到在每個時間點的任務安排。於是，我先定義騰訊優圖實驗室新增的能力範圍，讓大家有一個基本認識。有了認識之後，我們會接到來自公司內外的團隊的一些需求。這些需求在技術上可能並不“高端”，但很瑣碎。例如，最常見的圖像分類任務，這已經不是學術界現在在做的前沿研究了，因為它在基本技術層面已經很成熟。但是，我們要把它踏踏實實地做出來就需要解決很多實際問題，包括圖像類別的種類（每個團隊和業務需求是不一樣的）、精準度（每個方向要求不一）、數據的不一致性（數據來源多樣需要統一化管理和處理）。因此，我們的目標是爭取不但能夠滿足產品團隊的需求，還要讓準確率和執行效率不斷提升。最終，我們不僅在內部評測完全合格，還做到了業界最好水平。這樣，口碑就迅速積累起來。通過這些項目，我們內部的科學家、研發人員和開發人員都對做事的方式有了很清晰的認識，取得了共識，對技術在科學化、系統化上有了新的理解和突破。

口碑建立之後，有更多的團隊、公司、媒體知道我們在做什麼，帶來了更多需求。但是，人力仍然非常有限，這時我們需要在大量的需求之間進行抉擇。我們選擇任務時考慮的因素有3點：一是必須要可交付，以及交付後應用範圍有多大，或者社會影響力覆蓋面有多廣；二是關聯性，這個任務和之前做過的任務是否有關聯，如果有，那我們可以依賴之前準備的數據和算法系統高效地快速完成新的任務，對這些任務完成知識圖譜相關性的建立；三是匹配性，項目的要求和內部的科研人員的能力是否匹配。如果我們已經有了很強的內部研發能力，就可以少走彎路，直接進入研發落地階段；如果我們還沒有這樣的能力，可能會尋找外部夥伴一同完成任務。其中，決定因素是場景足夠大，最直接的體現是一個功能實現之後調用量會特別大，如社會級應用和產業級開發。其他如自動駕駛中的核心感知技術，我們認為其未來將有巨大的發展價值，這樣的項目我們也會仔細考慮，投入深度研發。

【Q】從2017 年 5 月加入騰訊優圖實驗室，是否可以理解為您的工作重心從研究轉向產業化應用，您如何看待從學術界到工業界的轉變，這其中是否有一些可以給我們分享的故事和體會？

【A】在加入騰訊優圖實驗室之前，我與工業界的合作大多侷限在短期的項目上，並沒有構建一個全面的團隊。因此，我加入工業界的目標是在工業界不侷限於簡單地完成一兩個項目，而是做到在每段時間目標不明確的情況下，仍然把科研落地產品化的事情做好。

現在，我們建立了完整的研發、開發到產品落地的架構。其實，研發是我們要繼續做的事，但它只是我們任務的一小部分，最終價值是商業和社會價值體現。我們秉持開放心態，已經有一大批AI相關領域的一流人才加入了團隊。我們現在需要思考很多關於商業化和產品化的問題，每天都在探索怎麼才能結合我們這麼多年的研究經驗和產業化的系統需求走一條科研帶動產品的路。想要把算法積累變成可以讓大家感受到、用到的產品和元素，依靠的是一個體系化的構建過程。我們上百人的團隊自主研發了集群環境，讓深度學習的網絡能夠在大規模並行系統上開展起來，而在此基礎上，輔以精心設計的管理人員層級架構，研究人員得以專注於算法和技術，以及算法在各個端的部署，研發出了種種看得見、摸得著的算法。

當然，現在我仍然留了一部分時間在學校，即使公司的事情再忙，“培養下一代人才”仍然是非常重要的一個任務。我希望能把我們積累的知識、能力和方法“傳授”給更多的學生，讓他們去探索一些前所未有的新內容。

【Q】您作為科技創新青年領袖，不僅在研究領域取得了重要成果，同時也培養了一批優秀人才，請給國內眾多的年輕科研人員一些建議。

【A】培養下一代的人才和看到他們的成長和成功是我最開心的事情，這個比完成眼前的項目還要有成就感和自豪感。但是，這是一個長期的過程。在我10多年的教學生涯中，曾經的學生們有些慢慢成長為業界領袖，創建自己的公司，領導重要團隊；有些在高校繼續從事前沿尖端研究工作，並逐步培養他們的學生。這些都是我的“科學研究家族”發展的重要契機。在此，我想給年輕的科研人員以下幾點建議。

首先，堅持自己的學術發展方向。隨著科技的迅速發展，在所有科學領域的研究都是非常細分的，計算機也有很多研究方向。年輕的科研人員容易被社會環境和當時比較熱門的研究所影響而放棄自己的興趣轉而投向熱門的研究。在我讀博士期間，計算機視覺是關注度相對較少的一個領域，AI更是無人提及。我的興趣是看到圖像視頻被增強，有前所未有的效果產生出來。這個興趣讓我的研究有內驅動力去追求更新、更好的成果。最近大熱的神經網絡，其開創者也是在不被人關注甚至被抵制的情況下堅持自己的學術路線，最終開創了AI的新時代。

其次，注重早期積累，不要過早被業界項目驅使做短線研究開發。在研究領域，純粹的非功利性驅使的研究是很基礎的，這在歐美尤為普遍。很多基礎研究需要長期的投入和具有非落地性的產出，這時最重要的是堅持長期且有深度的探究。太早被業界提供的短線淺層技術的任務所驅使，容易喪失自主科研的把控以及對問題的深度理解和探索。我在學術生涯早期接業界的項目有一個重要條件，是需要跟我現在的研究保持一致，同時不能要求我做工程性的工作，否則會嚴重影響我的研究時間和精力。我也感謝早期與我合作的企業尊重我的需求，讓我做了很多年有深度且自己有興趣的研究工作。

再者，選擇適當的團隊規模。我的很多中國香港和美國的同事，他們只有很小的科研團隊，但他們都在基礎模型和數學能力上非常強。這樣的團隊規模適合做尖端的最核心問題的探索，容易誕生了不起的成果。例如，我的一些同事的研究獲得了頂級學術會議的最佳論文獎或者解決了一些歷史上的猜想，靠的都是自己或者一兩個合作者。相反，系統級的研發需要大量硬件、實驗和系統構架，這就需要發展大規模的團隊和找到足夠的資金，這樣的構成會耗費很大的管理統籌精力。因此，年輕學者需要知道自己的目標，把時間和精力放在最合適的地方。

賈佳亞專訪：引領科技創新，走出計算機視覺技術的落地之路

相關推薦