首個面向AR的SLAM數據集和基準發佈 十二問解密背後的故事

來源:商湯科技SenseTime

首個面向AR的SLAM數據集和基準發佈 十二問解密背後的故事

由於AR/VR、機器人、自動駕駛、智能手機等應用的興起,其中的關鍵技術SLAM(同時定位與地圖構建)近年來變得非常火熱。但由於缺乏合適的基準(目前行業內常用的數據集評測標準多限於跟蹤精度),還比較難從AR的角度來定量地評估各種SLAM系統的性能。

為了填補這一領域空白,商湯科技和浙江大學聯合發佈了首個面向AR的單目視覺慣性SLAM數據集和評測標準,能夠更全面地覆蓋移動AR環境下的場景,構建了包括跟蹤精度、初始化質量、跟蹤穩定性和重定位時間等方面的更全面的評測標準,對SLAM算法研究有重要的指導意義。

近日,商湯君採訪了該數據集和基準項目負責人、“浙江大學-商湯三維視覺聯合實驗室”副主任章國鋒教授,深入探討了這個數據集和基準的優勢和行業意義。另外,浙江大學-商湯三維視覺聯合實驗室也是商湯產學研一體化發展的很好例子,章國鋒教授也分享了對產學研一體化的深刻體會,以及十幾年的研究心得和對5G時代SLAM技術發展趨勢的獨到見解。


數據集解讀

Q(商湯君):這次數據集是針對單目視覺慣性SLAM場景,以後會做針對多目的數據集麼?

A(章國鋒):我們以後會支持更多的傳感器,包括雙目、RGB-D等。我們計劃逐步地去完善這個數據集和基準,不僅支持更多的傳感器類型,而且場景尺度會更大。現在主要是室內的場景,未來將會擴展到室外場景。

Q:目前這套SLAM評測數據集和基準主要應用於學術研究,還是產業界應用呢?

A:目前主要還是應用於學術研究,但對產業界應用也有指導意義。其實很多領域都有類似的基準。我們的基準提供了一個重要的評價依據,相信對面向AR應用的SLAM研究會起到一個比較重要的推動作用。當然,對於產業界來說,此次研究成果可以為OEM廠商、APP開發商和算法開發商帶來多維度的評估數據,明確AR應用中會影響用戶體驗的核心要素,為產品的部署和最終的應用提供參考。

Q:我們的測試是否有一個精度的級別跟應用的場景級別的匹配關係?比如說達到一個什麼樣的精度能夠適用於什麼樣的場景?未來會有這樣一個評級的方向嗎?

A:這個數據集目前只針對室內場景,室外大場景暫時還不能評測。對於精度匹配應用場景的問題,如果針對室內這種小場景,我們的數據集基本上能夠評測是否滿足某些AR應用。我們也在計劃未來將這個數據集進一步擴展到室外大尺度場景,這樣也能評測SLAM系統是否能滿足室外大尺度場景的AR應用。

首個面向AR的SLAM數據集和基準發佈 十二問解密背後的故事

室內場景下的視覺慣性SLAM

Q:這個數據集相對於其他數據集的核心優勢是什麼?

A:首先是數據來源不同。很多數據集是在無人機或者車載情況下錄的,運動比較平穩,而我們的數據都是用手機錄的,包括快速運動、強旋轉、遮擋干擾、弱紋理等複雜情況下的數據。所以從數據本身來說,就是針對移動設備上的AR應用。

其次,我們針對AR應用制定了新的基準,這個也是以前沒有的。以前的基準主要是評測跟蹤定位的精度,而且數據的運動類型偏簡單。我們不僅進一步完善了定位精度的指標,而且還根據AR應用的特點增加了初始化質量、跟蹤穩定性和重定位時間等指標,並根據不同運動狀態和場景環境組成了16種特定的AR測試場景。這個數據集和基準不僅能反映定位精度,還能對初始化和重定位性能以及魯棒性進行量化呈現,這對AR十分重要。

Q:這個基準如何反映初始化和重定位性能以及魯棒性?

A:因為AR應用對於初始化的時間和質量有比較高的要求,一般要求很短的時間完成初始化,而且初始化後的尺度精度要求比較高。因此我們專門設立了初始化質量這個指標,將初始化時間和初始估計的尺度精度綜合起來考慮,能夠反映實際AR應用的要求。

在重定位方面,我們專門設計了3個序列,故意在原始拍攝的圖像序列裡將一部分圖像替換成了黑色圖像,從而讓SLAM系統進入跟蹤丟失狀態觸發重定位。跟蹤魯棒性方面,我們也專門選了三種非常有挑戰性的情況:快速運動、移動物體、相機遮擋,並從跟蹤丟失時間、重定位誤差和絕對位置誤差這三方面來綜合評估SLAM系統的跟蹤魯棒性。

Q:發佈這個數據集和基準對推動行業發展有哪些意義?

A:首先是學術意義,這是一個學術界內新的SLAM數據集和基準,尤其對於面向AR的SLAM研究來說,意義還是比較重大的,因為之前沒有專門針對AR的公開基準。

另外,對做SLAM算法研究的人來講也會有指導意義,以前大家可能覺得只要跟蹤定位精度高就夠了,但現在會意識到,對於AR應用來說,還要考慮一些異常情況和非常有挑戰情況下的魯棒性,以及初始化的速度和精度。有了這個數據集和基準,他們可以定量地評測所研發的VSLAM/VISLAM算法在AR應用方面的性能,至少有了比較客觀的評估依據。

此外,這個數據集和基準也會給包括OEM廠商、應用商和算法開發商一個概念:評估SLAM性能並不是只有跟蹤精度這一個指標,針對AR應用還有初始化質量、跟蹤魯棒性和重定位時間等更多指標,才能比較全面地評估一個SLAM系統在AR應用方面的性能。

產學研產生1+1大於2的效果

Q:商湯很重視產學研一體化,浙大-商湯三維視覺聯合實驗室就是一個很好的例子,作為實驗室負責人,想必您一定對於產學研一體化有更深的體會。

A:我是這麼看的,企業通常有很強的工程開發和產品開發能力,但科研創新和研究能力方面可能並不強。當然,商湯是比較獨樹一幟的,這也是商湯能夠得以脫穎而出的一個關鍵因素。

高校的研究團隊則往往相反,比較擅長做前沿基礎性和創新性的研究,但工程開發能力一般比較弱。因此,高校和企業應該做各自擅長的事情,並進行緊密合作,聯合研發:高校的研究團隊主要做偏前沿探索性的研究和提供技術指導,公司的研發團隊主要負責工程和產品化,兩邊能夠經常一起交流討論,甚至一起工作,就會產生一個“化學反應”。產品要落地其實很不容易,僅靠學校的研究團隊是不現實的。高校和企業的緊密合作和聯合研發,可以實現技術的快速落地。

浙大—商湯三維視覺聯合實驗室成立的初衷就是為了很好地解決產學研一體化的問題。在聯合實驗室,老師、學生和研究員、工程師們可以一起工作,又有分工;老師主要提供理論和技術指導,學生主要做一些偏前沿探索性的研究和原型驗證,而研究員、工程師則主要探索短期內有落地可能的技術以及產品化方面的研發工作。

兩邊緊密配合,出成果就會比較快,能夠達到1+1大於2的效果。一些事實也證明了這一點。例如,我們和商湯一起聯合研發的SenseAR增強現實平臺,已經成功地在OPPO、小米的多款機型上落地,很好地支撐了高德地圖AR導航、王者榮耀AR相機、一起來捉妖、OPPO AR測量等重要應用。

產學研一體化也是催生這次SLAM數據集和基準的基礎。正因為有產業界切實的標準需求和應用經驗,同時又有浙江大學和商湯深厚的學術體系為基礎,才誕生了這個數據集和基準。一個基準,不僅要有高校學術機構認可,還需要產業界的企業共同推進,才能滿足整個行業生態的發展需求。

堅持專注於一點才能產生大的影響力

Q:可以分享您在做研究方面的一些心得嗎?

A:我從2004年開始做運動恢復結構(跟VSLAM非常相似,區別僅在於它是離線,而VSLAM是在線的)方面的研究,然後做VSLAM以及VISLAM,一直做到現在有十幾年了,還是有蠻多這方面的心得和體會。

總結起來,最核心的一點就是要長期堅持專注在一個點上。比如SLAM,你是不是能堅持做這麼多年,是不是真的想把這個問題解決掉。如果抱著這樣一個態度去做研究,就能做得很深,甚至有可能某一天真的比較徹底地解決這個問題。

舉個例子,今年的圖靈獎頒給了深度學習的三位教父Yoshua Bengio、Geoffrey Hinton和Yann LeCun,他們堅持做了幾十年的神經網絡研究。我們看到人工智能領域這幾年誕生了很多創業公司,也湧現出了許多成功的產品,這很大程度上也是得益於他們的傑出貢獻。但在過去相當長的一段時間裡,他們的研究工作是被忽視的,不被主流學術圈所認可的。

其實SLAM技術也不是這幾年才有的,已經有幾十年的歷史了。做研究還是要堅持聚焦在某一個點上,不能打一槍換一個地方,否則你的工作不會有延續性,最終也不會產生多大的影響。

Q:如果遇到研究上的難點,應該怎樣應對?有什麼方法可以分享麼?

A:既要專注,也要講究方法。當你帶有很高的熱情去做事情,肯定會保持專注。對這個事情真正有興趣甚至有激情才能保持長期的專注力,這是根本所在。

另外就是要講究方法,比如調BUG,其實也有很多技巧,不能用最笨的方法去做,那樣效率肯定不會高。不僅要自己琢磨新的方法,不斷思考如何改進,還要多跟優秀的人在一起,從優秀的人那裡直接學到有用的東西,而不是總要自己踩了很多坑才能學到一點東西,那樣過程會慢很多。

Q:多跟比自己優秀的人在一起,有時候會得到更多的靈感。

A:沒錯。人比較容易被自己的經驗和知識所侷限,因此要多和優秀的人在一起。他們之所以優秀,肯定是有他們的過人之處,你要發現到他們的過人之處,甚至可以學到這個過人之處,那你也許很快也能變成比較優秀的人。

5G時代的SLAM和AR

Q:您怎麼看SLAM未來幾年的發展趨勢?

A:SLAM技術根據傳感器類型的不同可以分為VSLAM、VISLAM、RGB-D SLAM、LiDAR-SLAM等等。VSLAM如果從研究的角度來講,在理論上已經比較成熟了,所以現在這個領域發論文已經挺難的。

我覺得VSLAM未來的發展一個方向是結合深度學習,依靠深度學習所學到的一些先驗來解決傳統算法難以解決的一些問題,這可能會帶來一些新的突破。另外,多傳感器信息融合,即將多種傳感器信息融合起來進行優勢互補,也是SLAM技術的一個發展方向。

其次是新的傳感器的出現,容易帶來算法上的革新。一個典型的例子就是Event Camera(動態視覺傳感器)出來了之後,湧現出了很多相關的研究工作和論文。

還有一個是SLAM技術的高度定製優化,是產品落地的關鍵。比如掃地機器人的SLAM、車載的SLAM、手機上的SLAM等等都不太一樣,需要針對不同場景做高度定製優化,才有可能使技術真正落地,具有很強的競爭力。

Q:您覺得5G會給SLAM和AR帶來哪些新機遇?

A:5G如果真能達到理想的超低延時、極高帶寬,那麼應用的想象空間會很大,大部分耗時的計算和龐大的數據可以放在雲上,很多問題就解決了。

但是我認為目前實際情況可能還沒有那麼理想,首先低延時並沒有那麼容易解決,現在號稱延時小於1毫秒,一般指的是空口延遲,只佔整個通信系統延遲的一小部分。如果全部環節加起來,延時可能還是比較大的,需要各個環節的充分優化才有可能達到比較理想的低延時。而且在人群密度很高的地方,如果大家在同時使用5G,高帶寬也比較難保證。

當然即使目前5G技術還沒有達到那麼理想,但只要能合理地利用,對於一些SLAM和AR應用也能起到很大推動作用。5G的到來肯定會加快AR技術朝著雲和端結合的趨勢發展。即使目前5G技術在實際應用中還沒有達到真正的超低延時,我們依然可以將一些計算量大但實時性要求不是特別高的優化計算放到雲上,優化完之後再傳回到移動終端上。具體地,像SLAM技術中的地圖全局優化、稠密的三維幾何重建等,完全可以放在雲上計算,這樣即使在計算性能比較差的低功耗移動設備上也能實現高保真的AR效果。

本文圖片均來源於網絡


乾貨獲取方式

​添加微信公眾號“「創科前沿」

想更及時獲取科技資訊和乾貨,不妨“星標”我們吧!