「新智元專訪」阿里巴巴“NASA計劃”新進展:刷新視覺計算世界紀錄

「新智元專訪」阿里巴巴“NASA計劃”新進展:刷新視覺計算世界紀錄

新智元報道

「新智元專訪」阿里巴巴“NASA計劃”新進展:刷新視覺計算世界紀錄

5月18日,機器視覺算法測評平臺KITTI的世界紀錄再次被刷新——阿里雲將其車輛檢測的準確率拉昇至90.46%。車輛檢測被認為是實現無人駕駛的關鍵技術,極具挑戰。

「新智元專訪」阿里巴巴“NASA計劃”新進展:刷新視覺計算世界紀錄

該成果公佈後,新智元第一時間採訪到了華先勝,解讀他們所提出的基於區域融合決策和上下文相關的多任務深度神經網絡。另外,就準確率上的疑惑、GAN思想的應用等問題,華先勝也與新智元進行了分享。

在這次比賽中,他們提出了基於區域融合決策和上下文相關的多任務深度神經網絡,用於複雜場景下的車輛檢測任務,重點解決其中多視角,多姿態以及車輛遮擋等問題。

華先勝對新智元表示,他們所設計的網絡結構融合了目標的空間信息、自身屬性信息、上下文信息以及局部相關性等多種信息,最終構建了一個多任務深度神經網絡結構。另外以區域(region)為單位還設計了融合決策機制,進一步優化每個目標的檢測結果。他們所提出的方法,對中小目標、高遮擋目標的檢測效果有著十分明顯的提升效果。

在網絡結構設計上,團隊利用反捲積操作提高了小目標的召回率,同時拼接了多層特徵以融合低層的局部信息和高層的語義信息,提高了邊框定位的準確率。

他們也提到,在訓練過程中,還借鑑了GAN(生成對抗網絡)中的對抗訓練模式。華先勝對新智元說:“我們在設計檢測網絡的過程中,借鑑了GAN的對抗特性,提升了模型對於遮擋、形變、光照和噪聲的魯棒性。該思想的引入,對於高難度目標的檢測有很大的幫助。”

被問到KITTI 上的結果,阿里雲的準確度為90.46%,第二名為90.43%,第10名也有90.04%各種算法之間,準確率上這樣的差距算大嗎?

華先勝對新智元說,隨著指標的不斷上升,在準確率上的任何一點提升都是需要付出很多的努力,需要對算法進行不斷優化。例如曾經被大家刷爆的LFW,大家的提升都在小數點後面幾位。越到後面,難以解決的多是很難的樣本,雖然提升看起來不大,但卻能解決其中很困難的樣本,而真實場景中往往困難樣本的比例會更高,所以這些提升仍然是很有意義的。

華先勝表示,“現在我們已經將這樣的技術集成到阿里雲ET當中,並在城市大腦中得以應用。它能夠幫助城市大腦準確的看懂車流信息,快速的做出全局性判斷”。華先勝是視覺識別和搜索領域的國際級權威學者,曾獲選國際電氣與電子工程協會院士(IEEE Fellow)、美國計算機協會ACM傑出科學家。

城市大腦是包括阿里雲在內的13家企業聯合杭州市政府發起的項目,旨在構建一個城市級的人工智能中樞,讓城市能夠與人類友好互動。這其中分析視頻是城市大腦獲取信息的關鍵。

他在接受新智元的採訪時說,城市大腦中的視覺技術很多也是通用的技術,也能用到其他的場合。不論是城市大腦還是無人駕駛,精準的目標檢測技術都在其中起著十分重要的作用,而我們團隊關注技術本身,旨在打造世界領先的視覺算法,以支持多種視覺相關的應用。

另外,提到即將在7月份召開的計算機視覺領域國際頂級會議CVPR,華先勝表示,團隊的研究內容包括:視頻分析、事件檢測、人臉識別、醫療圖像識別、智能設計,以及大規模視覺搜索等方面。部分研究成果也將逐步在學術界公開,本次CVPR會介紹一些他們在城市和電商等多個場景下的目標Re-ID和大規模搜索的一些最近技術進展和實踐。

在視覺計算領域的持續攻堅,是阿里巴巴“NASA”計劃的一部分。該計劃聚焦於機器學習、芯片、IoT、操作系統、生物識別等核心領域,他們希望能解決10年、20年後的困難。此前,已在光量子計算機、全浸沒液冷服務器等方面取得重大進展。

KITTI是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集,可以用於評測目標檢測等計算機視覺技術在複雜真實環境下的性能。KITTI包含市區、鄉村和高速公路等場景採集的真實圖像數據,有大量的微小目標、欠曝和過曝、多種視角變化以及各種遮擋情況。

點擊【閱讀原文】查看新智元招聘信息。

相關推薦

推薦中...