登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品

算法 商湯 人工智能 YouTube 量子位 2019-05-27

黑栗子 發自 凹非寺

量子位 報道 | 公眾號 QbitAI


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


這是黑客帝國,尼奧和史密斯雨中打鬥的樣子。

目標追蹤AI要在光照急劇變化、物體形狀大小也不斷改變的場景裡,準確鎖定尼奧的頭。

紅色是商湯最新算法SiamRPN++的表現,它中選了CVPR 2019的Oral。

藍色是它的對手,來自ECCV 2018的優秀前輩UPDT。自古紅藍出CP。

動作太快,看不出紅藍誰更強?有截圖啊:


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品

登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


肉眼看去,商湯SiamRPN++更勝一籌,幾乎不受複雜場景的影響。

不止如此,它已經在多個數據集上成為了State-of-the-Art

同時也成了商湯Siam家族的驕傲。現在,整個家族都開源了

· SiamMask (CVPR 2019)

· SiamRPN++ (CVPR 2019 oral)

· DaSiamRPN (ECCV 2018)

· SiamRPN (CVPR 2018)

· SiamFC (ECCV 2016)

但這到底是一個怎樣的家族?

顯赫之家

Siam是Siamese的縮略,所以整個家族都是孿生網絡

所謂孿生,就是兩個網絡的所有權重都一樣

給它們輸入不同的數據,便可以測量兩個輸入的相似度,做分類之用。


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


經年累月,團隊死磕孿生網絡,用這類算法來做目標跟蹤。

在這之中,SiamRPN赫然挺立,中選了CVPR 2018的Spotlight。

SiamRPN:把檢測算法引入跟蹤

這隻AI的誕生,是因為團隊發現:雖然孿生網絡能對目標快速定位,但不能對目標框作出調整,也就不能調節目標的形狀

可目標跟蹤並不是只要定一個點,目標所在的範圍也同樣重要。

於是,團隊為孿生網絡引入了區域推薦網絡 (RPN) 。


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


孿生網絡可以實現對目標的適應,利用被跟蹤目標的信息,完成檢測器的初始化;而RPN可以讓算法對目標位置 (範圍) 做出更精準的預測。

兩者結合,就有了可以端到端訓練的SiamRPN。除了算法上的創新之外,由於支持端到端訓練, (在VID之外) 大規模數據集Youtube-BB也成了它的訓練集,進一步提升性能。

於是,在OTB100、VOT15/16/17數據集上,SiamRPN都比基線算法SiamFC高出了5%以上,速度也更快。它被CVPR 2018選作了Spotlight。


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


DaSiamRPN:改進訓練集,增強判別能力

雖然,SiamRPN取得了好成績,但它是用VID和Youtube-BB訓練的:裡面的類別非常少,大概二三十類,很難勝任現實任務。

COCOImageNet DET的檢測數據集,分別有80類和200類。且孿生網絡的訓練只需要圖像對,不用完整的視頻,所以輕鬆就把這些數據集引入了。

可引入之後又有新問題:這個網絡會對所有有語義的樣本進行響應,不只對目標物體有響應。比如目標是一個人,而AI遇到一把椅子也有很高的響應。

因為之前的訓練中,負樣本 (和目標無關的樣本) 只有背景信息,限制了網絡的判別能力。


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


於是,團隊改進了方法——增加一些有語意的負樣本對,來增強跟蹤器的判別能力。

這就是說,訓練過程中不再讓模板 (Template) 和搜索區域 (Search Region) 是相同目標;是讓網絡學習判別能力,去搜索區域裡找模版更相似的物體,而不是一個簡單的有語義的物體。


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


做了這樣的改動,DaSiamRPN可以從短時跟蹤拓展到長時跟蹤,且在UAV20L數據集上比之前成績最好的方法提高了6%。

DaSiamRPN被ECCV 2018收錄,且在VOT workshop比賽上,獲得了實時賽的冠軍,比上年冠軍提升了80%


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


SiamRPN++:讓孿生網絡用上深度架構

算法也改過了,訓練集也改過了。

所以,團隊這一次瞄準了還沒改過的孿生網絡本身。

之前的孿生網絡,都是基於比較淺的卷積網絡 (比如AlexNet) 。但如果直接引入深度網絡,性能反而會大幅下降。


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


想有效利用深網絡,就要解決位置偏見的問題。於是,研究人員提出了“位置均衡的採樣策略”:

不把正樣本放在中心,而是以均勻分佈的採樣方式,讓目標在中心點附近進行偏移。

隨著偏移範圍增大,深度網絡慢慢開始發揮作用。不止可以跟蹤更多細節信息 (淺層網絡特徵) ,也能跟蹤更多語義信息 (深層網絡特徵) 。多層融合信息,來進一步提升性能。

除此之外,團隊還提出了新的連接部件,Depthwise Cross Correlation (下圖c) 。它可以極大減少參數量,平衡兩支的參數量,同時讓訓練更加穩定,也更好地收斂。


登頂五大數據集!最強目標跟蹤算法SiamRPN++開源了,商湯出品


結果,SiamRPN++在5個大型跟蹤數據集上,都拿到了最好成績:OTB2015,VOT2018,UAV123,LaSOT,以及TrackingNet。

突破了孿生網絡和深度架構之間的障礙,這隻AI順理成章地中選了CVPR 2019的Oral。

大規模開源

這些孿生網絡,現在都開源了。

商湯發佈了一個叫做PySOT的目標跟蹤庫,基於PyTorch,把整個Siam家族裝了進去。回顧一下,包括這些模型:

· SiamMask (CVPR 2019)

· SiamRPN++ (CVPR 2019 oral)

· DaSiamRPN (ECCV 2018)

· SiamRPN (CVPR 2018)

· SiamFC (ECCV 2016)

PySOT庫提供了3種不同的backbone,有深有淺:

· ResNet{18, 34, 50}

· MobileNetV2

· AlexNet

模型評估,目前支持這些數據集:

· OTB2015

· VOT16/18/19

· VOT18-LT

· LaSOT

· UAV123

PySOT裡面,還包含了評估工具的接口。

所以,大家可以盡情探索了。

PySOT傳送門:

https://github.com/STVIR/pysot

SiamRPN論文傳送門:

http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

DaSiamRPN論文傳送門:

https://arxiv.org/abs/1808.06048

SiamRPN++論文傳送門:

https://arxiv.org/abs/1812.11703

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

相關推薦

推薦中...