研究|YOLO一眼就能認出你:看一個神經網絡如何全視野實時檢測目標

研究|YOLO一眼就能認出你:看一個神經網絡如何全視野實時檢測目標

作者 | Joseph Redmon的 & Ali Farhadi

編譯|AI100(rgznai100)

YOLO全名You only look once(你只需要看一眼),是一個用於攝像頭的實時目標檢測系統。它能分辨出6000種物體,可在Titan X顯卡上以40-90FPS的幀率處理視頻。

007跑得再快,它看上一眼也能記住:

研究|YOLO一眼就能認出你:看一個神經網絡如何全視野實時檢測目標

YOLO的作者是華盛頓大學(保羅·艾倫母校)的Joseph Redmon和保羅·艾倫AI研究所的Ali Farhadi,該項目目前已經開源,代碼用C和CUDA寫成,還有訓練好的參數供你下載。

YOLO在原理上不同於過往的目標檢測系統,人們過去只是把分類器和定位器的模型重用到目標檢測上,用以監控攝像頭視野中的多處位置和區域,得分最高的區域就被認為是發現目標。

YOLO的神經網絡則可以監控攝像頭的整個視野,如下圖所示,它把整個視野的圖像分成13×13的方格細胞:

研究|YOLO一眼就能認出你:看一個神經網絡如何全視野實時檢測目標

每個方格細胞負責預測5個目標框,並以目標框來描述神經網絡所檢測到的物體:

研究|YOLO一眼就能認出你:看一個神經網絡如何全視野實時檢測目標

不過,YOLO所輸出的置信度數值,並非針對它所要識別的目標,而是目標框形狀的契合程度。置信度越高,目標框就越粗:

研究|YOLO一眼就能認出你:看一個神經網絡如何全視野實時檢測目標

目標框確定後,方格細胞便據此來預測目標的分類。以PASCAL VOC圖像數據集為例,YOLOh很輕鬆就能辨別出20種不同的目標:自行車、船、汽車、貓、狗、人……

與基於分類器的老式系統不同,YOLO僅運行一個神經網絡就能實時檢測目標,相比要運行數千個神經網絡才能檢測目標的R-CNN系統,它能快上1000倍。

研究|YOLO一眼就能認出你:看一個神經網絡如何全視野實時檢測目標

YOLO項目的詳細信息如下:

  • 論文 - https://arxiv.org/abs/1612.08242

  • 項目頁面 - https://pjreddie.com/darknet/yolo/

  • 模型代碼 - https://github.com/pjreddie/darknet

  • 258M參數下載 - https://pjreddie.com/media/files/yolo.weights

參考內容:

http://machinethink.net/blog/object-detection-with-yolo/

相關推薦

推薦中...