'3D重建傳統算法對比深度學習，SFU譚平：更需要的是二者的融合'

算法譚平深度學習技術城市規劃大學高能小子終極裝備無人駕駛弗雷澤加拿大機器人新加坡國立大學照相機測繪不列顛哥倫比亞大學機器學習新加坡文章麻省理工學院浙江大學機器之心 2019-07-19

機器之心原創

作者：一鳴

近年來，深度學習在計算機視覺的重要領域——三維重建中取得了一系列成果。然而，最近有論文指出，深度學習的 3D 重建表現甚至不如某些基線模型。而 CVPR 2019 最佳論文使用的是傳統的三維重建方法，並不依賴深度學習模型。

近日，機器之心發表文章《 3D 重建：硬派幾何求解 vs 深度學習打天下？》，對幾何與深度學習兩種方法進行了對比。

在這篇文章中，機器之心採訪了加拿大西蒙弗雷澤大學 (SFU) 譚平副教授，就三維重建技術的歷程和發展、傳統算法和深度學習算法在這一領域的發展情況，以及未來的發展趨勢，進行了探討。譚教授認為，傳統基於優化方法的三維重建不太可能被深度學習完全取代，未來應是深度學習與傳統優化方法的融合。

背景

三維重建是計算機視覺領域的研究熱點問題。三維重建技術可應用於多個工業領域，如機器人、AR/VR、自動駕駛、電影、娛樂、建築建造、城市規劃、考古復原、事故現場重建和分析等。

傳統三維重建依賴可以大致分為光測度或幾何方法。光測度方法分析像素點的亮度變化，而幾何方法則依靠視差完成重建。而近年來，光測度和幾何方法中都開始採用機器學習技術，並取得了一定的成果。其中，深度學習佔據了這些研究的很大一部分。

但是，也有不同的聲音認為，深度學習在三維模型重建方面仍有一些缺陷。近日，有一篇論文指出，深度學習的三維重建表現甚至不如某些基線模型。

在這樣的背景下，機器之心採訪了加拿大西蒙弗雷澤大學 (SFU) 譚平副教授，希望譚教授能夠為讀者帶來更為深刻的見解。

機器之心原創

作者：一鳴

近年來，深度學習在計算機視覺的重要領域——三維重建中取得了一系列成果。然而，最近有論文指出，深度學習的 3D 重建表現甚至不如某些基線模型。而 CVPR 2019 最佳論文使用的是傳統的三維重建方法，並不依賴深度學習模型。

近日，機器之心發表文章《 3D 重建：硬派幾何求解 vs 深度學習打天下？》，對幾何與深度學習兩種方法進行了對比。

背景

但是，也有不同的聲音認為，深度學習在三維模型重建方面仍有一些缺陷。近日，有一篇論文指出，深度學習的三維重建表現甚至不如某些基線模型。

在這樣的背景下，機器之心採訪了加拿大西蒙弗雷澤大學 (SFU) 譚平副教授，希望譚教授能夠為讀者帶來更為深刻的見解。

譚平博士是加拿大西蒙弗雷澤大學 (SFU) 副教授，在此之前曾任新加坡國立大學 (NUS) 副教授，一直從事計算機視覺，特別是三維重建、視覺 SLAM 方面的研究工作。他是 IJCV、CGF、MVA 等學術雜誌的副主編，並擔任計算機視覺、圖形學、機器人方面的學術會議領域主席，包括 CVPR 、SIGGRAPH、SIGGRAPH Asia 、IROS。之前，機器之心曾報道過，

譚教授和浙江大學合作了一系列三維視覺課程，獲得了廣泛關注和好評。

三維重建技術的歷程和發展

譚平教授首先從三維重建技術的歷程和技術發展講起，根據技術發展路徑介紹了相關的應用。

三維重建是計算機視覺中的重要課題。三維視覺意圖從圖像中獲取三維信息，而三維重建則根據獲取的信息進行三維模型的還原。

三維重建中的技術主要分為兩類：光測度方法或幾何方法。

光測度方法

光測度方法通過分析一個像素點的亮度變化來恢復三維結構。

最早的光測度法可以追溯到 70 年 MIT 教授 BKP Horn 提出的 Shape-from-Shading。這個方法通過分析物體表面的光影變化來求解物體表麵點的朝向（即所謂法向量方向）。

後來有加拿大 UBC 大學教授 Robert Woodham 在 80 年提出 Photometric-Stereo 算法，採用同一視點下三張不同光照條件的圖來簡化法向量的求解。

幾何方法

而幾何方法主要依靠視差，或者說同一個三維點在不同相機中的投影位置的不同，來恢復三維結構。基於的原理是三角測量法，即通過兩個已知三維點發出兩根光線交叉，求解出第三個點的三維位置。

在上世紀 90 年代，幾何三維視覺接連取得重大突破，五點算法、六點算法、標定算法、自標定算法，以及後來 Bundle Adjustment 算法接連出現。而 2000 年後幾何三維視覺開始往更大規模、更高效率兩個方向突進。2003 年 Andrew Davison 提出了基於單目相機的 visual SLAM，發表了開創性的 MonoSLAM，開啟了視覺定位—Visual SLAM 的時代。

幾何方法裡有一個子問題是雙目立體視覺 (stereo)。這個問題主要解決的是相機姿態求解完成後，如何利用像素級的匹配求出深度圖（即每個像素到相機成像平面的距離）。後來發展出來了結構光算法，通過主動光源（如線激光、投影儀）往場景投射紋理，來輔助像素匹配。

除了光測度法和幾何法兩大經典方向，三維重建領域還發展出了其它許多不同的算法。在學術屆往往把他們統稱為 Shape-from-X。但參與這些方向的研究人員相對較少，相關文獻數量不多，暫時不是主流方向。但並不是說這些方向就不重要。

應用

三維重建技術已在遊戲、電影、測繪、定位、導航、自動駕駛、VR/AR、工業製造，以及消費品領域等方面得到了廣泛的應用。例如，基於光測度法的超級高精度的三維重建可以用來做「表演捕捉」，捕捉人物細節的表情變化，用於遊戲、電影特技等。

機器之心原創

作者：一鳴

近年來，深度學習在計算機視覺的重要領域——三維重建中取得了一系列成果。然而，最近有論文指出，深度學習的 3D 重建表現甚至不如某些基線模型。而 CVPR 2019 最佳論文使用的是傳統的三維重建方法，並不依賴深度學習模型。

近日，機器之心發表文章《 3D 重建：硬派幾何求解 vs 深度學習打天下？》，對幾何與深度學習兩種方法進行了對比。

背景

但是，也有不同的聲音認為，深度學習在三維模型重建方面仍有一些缺陷。近日，有一篇論文指出，深度學習的三維重建表現甚至不如某些基線模型。

在這樣的背景下，機器之心採訪了加拿大西蒙弗雷澤大學 (SFU) 譚平副教授，希望譚教授能夠為讀者帶來更為深刻的見解。

譚教授和浙江大學合作了一系列三維視覺課程，獲得了廣泛關注和好評。

三維重建技術的歷程和發展

譚平教授首先從三維重建技術的歷程和技術發展講起，根據技術發展路徑介紹了相關的應用。

三維重建是計算機視覺中的重要課題。三維視覺意圖從圖像中獲取三維信息，而三維重建則根據獲取的信息進行三維模型的還原。

三維重建中的技術主要分為兩類：光測度方法或幾何方法。

光測度方法

光測度方法通過分析一個像素點的亮度變化來恢復三維結構。

後來有加拿大 UBC 大學教授 Robert Woodham 在 80 年提出 Photometric-Stereo 算法，採用同一視點下三張不同光照條件的圖來簡化法向量的求解。

幾何方法

應用

表情捕捉技術。來源：http://www.dynamixyz.com/performer-multi-view/

而基於幾何方法的大規模三維重建技術最近被用來做城市級別的三維重建。重建出來的城市三維模型可以用在測繪領域，也可以給自動駕駛提供高精地圖，甚至可以用做智慧城市應用的可視化平臺。而 Visual SLAM 技術則廣泛應用在 VR/AR 頭戴顯示器的定位，或是自動駕駛、機器人、無人機的定位導航上。

機器之心原創

作者：一鳴

近年來，深度學習在計算機視覺的重要領域——三維重建中取得了一系列成果。然而，最近有論文指出，深度學習的 3D 重建表現甚至不如某些基線模型。而 CVPR 2019 最佳論文使用的是傳統的三維重建方法，並不依賴深度學習模型。

近日，機器之心發表文章《 3D 重建：硬派幾何求解 vs 深度學習打天下？》，對幾何與深度學習兩種方法進行了對比。

背景

但是，也有不同的聲音認為，深度學習在三維模型重建方面仍有一些缺陷。近日，有一篇論文指出，深度學習的三維重建表現甚至不如某些基線模型。

在這樣的背景下，機器之心採訪了加拿大西蒙弗雷澤大學 (SFU) 譚平副教授，希望譚教授能夠為讀者帶來更為深刻的見解。

譚教授和浙江大學合作了一系列三維視覺課程，獲得了廣泛關注和好評。

三維重建技術的歷程和發展

譚平教授首先從三維重建技術的歷程和技術發展講起，根據技術發展路徑介紹了相關的應用。

三維重建是計算機視覺中的重要課題。三維視覺意圖從圖像中獲取三維信息，而三維重建則根據獲取的信息進行三維模型的還原。

三維重建中的技術主要分為兩類：光測度方法或幾何方法。

光測度方法

光測度方法通過分析一個像素點的亮度變化來恢復三維結構。

後來有加拿大 UBC 大學教授 Robert Woodham 在 80 年提出 Photometric-Stereo 算法，採用同一視點下三張不同光照條件的圖來簡化法向量的求解。

幾何方法

應用

表情捕捉技術。來源：http://www.dynamixyz.com/performer-multi-view/

城市三維建模。來源：https://www.semanticscholar.org/paper/On-3D-reconstruction-of-the-old-city-of-Xanthi.-A-Koutsoudis-Arnaoutoglou/f45e7665b167667bc0f306b6991d3e5de6d59836

早期的雙目立體視覺技術主要用來做三維掃描儀，為了獲得更高精度，常常採用激光或者投影儀輔助匹配，應用主要在製造和工業設計領域。

微軟的 Kinect 深度相機是第一個讓大量普通人都能接觸到的基於雙目立體視覺的產品，被應用在一些遊戲中。深度相機也有其他方面的應用，例如一家叫 Matterport 的創業公司就用深度相機來掃描房屋的三維模型，方便買家身臨其境般的看房。最近，小型化的深度相機更是被裝到了手機上，用於人臉識別的活體檢測、AR 等應用。

傳統算法生命力依然茁壯

儘管深度學習在近幾年大行其道，但可以看到，廣泛應用於工業場景的三維重建技術，使用的都是傳統算法，深度學習遠未「佔領」這一領域。「傳統算法還有很多可以研究的問題。比如，現有的深度相機只能用於室內環境，因為深度相機依賴於投影儀投射散斑或是結構光來解決 stereo 中的像素匹配問題。在室外強烈的陽光下，投影儀的信號完全被陽光掩蓋，無法輔助像素匹配。」

傳統算法依然具有研究價值的著名案例是 CVPR 2019 最佳論文。分類上，該論文屬於傳統算法中的冷門方向——Shape-from-X 類型，是 non-line-of-sight（非可視區域）三維重建問題。

機器之心原創

作者：一鳴

近年來，深度學習在計算機視覺的重要領域——三維重建中取得了一系列成果。然而，最近有論文指出，深度學習的 3D 重建表現甚至不如某些基線模型。而 CVPR 2019 最佳論文使用的是傳統的三維重建方法，並不依賴深度學習模型。

近日，機器之心發表文章《 3D 重建：硬派幾何求解 vs 深度學習打天下？》，對幾何與深度學習兩種方法進行了對比。

背景

但是，也有不同的聲音認為，深度學習在三維模型重建方面仍有一些缺陷。近日，有一篇論文指出，深度學習的三維重建表現甚至不如某些基線模型。

在這樣的背景下，機器之心採訪了加拿大西蒙弗雷澤大學 (SFU) 譚平副教授，希望譚教授能夠為讀者帶來更為深刻的見解。

譚教授和浙江大學合作了一系列三維視覺課程，獲得了廣泛關注和好評。

三維重建技術的歷程和發展

譚平教授首先從三維重建技術的歷程和技術發展講起，根據技術發展路徑介紹了相關的應用。

三維重建是計算機視覺中的重要課題。三維視覺意圖從圖像中獲取三維信息，而三維重建則根據獲取的信息進行三維模型的還原。

三維重建中的技術主要分為兩類：光測度方法或幾何方法。

光測度方法

光測度方法通過分析一個像素點的亮度變化來恢復三維結構。

後來有加拿大 UBC 大學教授 Robert Woodham 在 80 年提出 Photometric-Stereo 算法，採用同一視點下三張不同光照條件的圖來簡化法向量的求解。

幾何方法

應用

表情捕捉技術。來源：http://www.dynamixyz.com/performer-multi-view/

城市三維建模。來源：https://www.semanticscholar.org/paper/On-3D-reconstruction-of-the-old-city-of-Xanthi.-A-Koutsoudis-Arnaoutoglou/f45e7665b167667bc0f306b6991d3e5de6d59836

早期的雙目立體視覺技術主要用來做三維掃描儀，為了獲得更高精度，常常採用激光或者投影儀輔助匹配，應用主要在製造和工業設計領域。

傳統算法生命力依然茁壯

CVPR 2019 最佳論文的非可視區域成像方法。研究人員考慮了一些重建物體表面的情況：a）處於傳感器的視野之外；b）被漫射器遮擋。在 c）中，研究人員對比了他們的重建結果，和對物體進行深度掃描的真實結果。

該論文在傳統三維重建算法上做出了新的突破。首先，論文研究者發現，光強度在時間上的極值點對應反射物體局部幾何形狀的極值點。其次，作者論證了極值點到相機的光線（作者稱為「費馬線」）的長度場梯度可用於重建反射物的三維形狀，可以獲得毫米級精度。「因此，論文確實是非可視域三維重建的重大突破。」

「當然，這篇論文也有一定的侷限性。論文使用的算法要求場景中物體是均一材料，對光源要求很高，相機可見範圍內不能有其他物體遮擋。但這並不掩蓋這篇論文的技術貢獻。」

「這篇論文一方面的價值在於，讓國內的年輕學生了解到計算機視覺還有除深度學習以外的世界。我曾經在網上看到過討論，說 CVPR 每年的 best paper 都不是當年引用數最高的 paper，因而質疑那些 best paper 名不符實。國內年輕學生中間最近幾年非常熱衷於用深度學習刷榜，簡單粗暴地用引用數評價論文的學術價值，這不是好做法。」譚教授說。

三維重建，深度學習任重道遠

最近，另一篇關於三維重建的論文對目前基於單張圖像物體輸入進行三維重建的方法進行了探討。這篇論文對比了基於搜索（retrieval）和基於聚類（clustering）的方法。從結果來看，深度學習模型的效果並不理想。

機器之心原創

作者：一鳴

近年來，深度學習在計算機視覺的重要領域——三維重建中取得了一系列成果。然而，最近有論文指出，深度學習的 3D 重建表現甚至不如某些基線模型。而 CVPR 2019 最佳論文使用的是傳統的三維重建方法，並不依賴深度學習模型。

近日，機器之心發表文章《 3D 重建：硬派幾何求解 vs 深度學習打天下？》，對幾何與深度學習兩種方法進行了對比。

背景

但是，也有不同的聲音認為，深度學習在三維模型重建方面仍有一些缺陷。近日，有一篇論文指出，深度學習的三維重建表現甚至不如某些基線模型。

在這樣的背景下，機器之心採訪了加拿大西蒙弗雷澤大學 (SFU) 譚平副教授，希望譚教授能夠為讀者帶來更為深刻的見解。

譚教授和浙江大學合作了一系列三維視覺課程，獲得了廣泛關注和好評。

三維重建技術的歷程和發展

譚平教授首先從三維重建技術的歷程和技術發展講起，根據技術發展路徑介紹了相關的應用。

三維重建是計算機視覺中的重要課題。三維視覺意圖從圖像中獲取三維信息，而三維重建則根據獲取的信息進行三維模型的還原。

三維重建中的技術主要分為兩類：光測度方法或幾何方法。

光測度方法

光測度方法通過分析一個像素點的亮度變化來恢復三維結構。

後來有加拿大 UBC 大學教授 Robert Woodham 在 80 年提出 Photometric-Stereo 算法，採用同一視點下三張不同光照條件的圖來簡化法向量的求解。

幾何方法

應用

表情捕捉技術。來源：http://www.dynamixyz.com/performer-multi-view/

城市三維建模。來源：https://www.semanticscholar.org/paper/On-3D-reconstruction-of-the-old-city-of-Xanthi.-A-Koutsoudis-Arnaoutoglou/f45e7665b167667bc0f306b6991d3e5de6d59836

早期的雙目立體視覺技術主要用來做三維掃描儀，為了獲得更高精度，常常採用激光或者投影儀輔助匹配，應用主要在製造和工業設計領域。

傳統算法生命力依然茁壯

三維重建，深度學習任重道遠

論文「What Do Single-view 3D Reconstruction Networks Learn?」中幾類三維重建方法的對比。

這篇論文從模型效果的評價方式和數據集兩個角度分析為什麼深度學習的重建效果並不理想。譚教授表示「作者分析，對於測試集中的每一個物體，訓練集中都有一個非常像的物體，所以基於 IoU 的評價指標，搜索（Retrieval）方法可以獲得很高的得分。而神經網絡會被這樣的評價指標和數據集誤導，沒有學會三維重建，反而學會了搜索、聚類。」

這樣的問題產生的原因，正是由於神經網絡缺乏可解釋性，同時數據集和評價指標具有設計缺陷。最終在模型中引入了意料之外的 bias，導致效果偏低。

而從理論上，僅依賴單張圖像輸入，無論使用傳統算法還是深度學習，效果都可能不佳。圖像中每個像素都有無窮多種可能的深度。在單張圖做三維重建本質上是在尋找一個與圖像吻合並且最符合人的日常經驗的三維場景，但這種日常經驗有可能與真實三維場景相悖。例如，人眼可能被三維視覺錯覺欺騙，算法也不例外。

基於深度學習進行單幅圖像的三維重建會被限定在和訓練數據匹配的場景中，缺乏廣泛場景下的泛化能力。比如，從室內三維重建數據集訓練的模型無法泛化到火星車、隧道里礦車的三維感知場景中。

用機器學習方法從單幅圖像進行重建也能給傳統方法提供新的武器。譚教授提到，最近有一項名為「CodeSLAM」的工作，這項研究獲得了 CVPR 2018 年的 best paper 提名獎。研究使用了深度學習的方法從單張圖中用神經網絡提取出若干個 basis function（基函數）來表示場景的深度，這些基函數表示可以極大簡化傳統幾何方法中的優化問題。

「我自己實驗室去年也有一項跟隨這個方向的工作，我們將 Bundle Adjustment 優化算法做成神經網絡的一層，以便訓練出更好的基函數生成網絡，並且訓練更適合作為優化目標函數的特徵。我們這個工作叫 BA-Net，發表在今年的 ICLR 2019，根據 OpenReview 顯示，是全部 1500+篇投稿論文中評分並列第 6 的工作。」

三維重建技術發展趨勢

傳統算法歷久彌新，深度學習任重道遠，三維重建技術的未來該往何處去？譚教授認為，傳統算法不會完全被機器學習取代。

「未來看到的很可能是機器學習與傳統算法的融合。機器學習能夠將一些 Prior（先驗信息）加入到優化問題中來，這是傳統方法欠缺的。但傳統方法也有自身的優點，比如可解釋，無需訓練數據（所以具有普適性）。這些特點也是機器學習領域的研究者希望獲得的。」