研究｜YOLO一眼就能認出你：看一個神經網絡如何全視野實時檢測目標

機器學習編程語言人工智能 Pascal AI100 2017-06-15

作者 | Joseph Redmon的 & Ali Farhadi

編譯|AI100（rgznai100）

YOLO全名You only look once（你只需要看一眼），是一個用於攝像頭的實時目標檢測系統。它能分辨出6000種物體，可在Titan X顯卡上以40-90FPS的幀率處理視頻。

007跑得再快，它看上一眼也能記住：

研究｜YOLO一眼就能認出你：看一個神經網絡如何全視野實時檢測目標

YOLO的作者是華盛頓大學（保羅·艾倫母校）的Joseph Redmon和保羅·艾倫AI研究所的Ali Farhadi，該項目目前已經開源，代碼用C和CUDA寫成，還有訓練好的參數供你下載。

YOLO在原理上不同於過往的目標檢測系統，人們過去只是把分類器和定位器的模型重用到目標檢測上，用以監控攝像頭視野中的多處位置和區域，得分最高的區域就被認為是發現目標。

YOLO的神經網絡則可以監控攝像頭的整個視野，如下圖所示，它把整個視野的圖像分成13×13的方格細胞：

研究｜YOLO一眼就能認出你：看一個神經網絡如何全視野實時檢測目標

每個方格細胞負責預測5個目標框，並以目標框來描述神經網絡所檢測到的物體：

研究｜YOLO一眼就能認出你：看一個神經網絡如何全視野實時檢測目標

不過，YOLO所輸出的置信度數值，並非針對它所要識別的目標，而是目標框形狀的契合程度。置信度越高，目標框就越粗：

研究｜YOLO一眼就能認出你：看一個神經網絡如何全視野實時檢測目標

目標框確定後，方格細胞便據此來預測目標的分類。以PASCAL VOC圖像數據集為例，YOLOh很輕鬆就能辨別出20種不同的目標：自行車、船、汽車、貓、狗、人……

與基於分類器的老式系統不同，YOLO僅運行一個神經網絡就能實時檢測目標，相比要運行數千個神經網絡才能檢測目標的R-CNN系統，它能快上1000倍。

研究｜YOLO一眼就能認出你：看一個神經網絡如何全視野實時檢測目標

YOLO項目的詳細信息如下：

參考內容：
http://machinethink.net/blog/object-detection-with-yolo/