TED演講搬運:計算機如何學會瞬間識別物體

TED演講搬運:計算機如何學會瞬間識別物體

演講者 Joseph Redmon

Joseph Redmon是華盛頓大學的一名研究生,從事YOLO算法的研究,也就是將手機相機人臉檢測和基於雲的人工智能實時地結合起來。下面是Joseph Redmon的TED演講內容翻譯。

10年以前,計算機視覺研究者認為,讓一臺計算機分辨貓和狗是幾乎不可能的,儘管當時人工智能已經取得很大進步。現在計算機識別貓和狗的準確度已經可以達到99%。這種技術叫做圖像分辨——給計算機一張圖片計算機給圖片貼上標籤——計算機還能識別上千種其它類別的圖像。

我是華盛頓大學的一名研究生,正在研究一個叫Darknet的項目。它是一個用來訓練和測試計算機視覺模型的神經系統框架。那麼我們來看看Darknet是如何看待我們這幅圖像。

當我們用分辨器識別這幅圖像,我們不僅僅能看到對於圖像裡是貓還是狗的預測,還能看到對於具體品種的預測。這是我們現在可以達到的精確度,而且它是對的。我的狗是一隻愛斯基摩犬。

我們已經在在圖像分辨上取得驚人的進步,但如果我們用分辨器識別這幅圖像會怎麼樣?

TED演講搬運:計算機如何學會瞬間識別物體

我們看到分辨器給出了一個非常相似的結果。而且它是對的,圖像裡確實有一隻愛斯基摩犬,但是僅僅打上這樣的標識,我們對這張圖像裡的內容並沒有瞭解很多。我們需要一些更強大的東西來做到。我在研究一個叫物體探測的項目。這個項目可以找到圖像裡所有的物體並且打上方框告訴我們這些物體是什麼。所以當我們用探測器探測這幅圖像時會出現這樣。

TED演講搬運:計算機如何學會瞬間識別物體

現在,有了這種結果我們可以用我們的計算機視覺算法做得更多。計算機知道圖像裡有一隻貓和一隻狗。它知道它們相對的位置和它們的大小。它可能甚至還知道一些其它的信息。背景裡有一本書。還有如果你想用計算機視覺來建造一個系統比如一輛自動駕駛汽車或者一個機器人系統,這就是你想要的信息。你想要一些讓你能和真實世界交互的東西。

當我剛開始研究物體探測時,它用20秒來處理整個圖像。為了讓你們瞭解為什麼速度在這個領域如此重要,這裡有一個用兩秒鐘處理圖像的探測器。

TED演講搬運:計算機如何學會瞬間識別物體

它的速度是20秒處理一張圖片的探測器的10倍,但是你可以看到當它做出預測時,世界的狀態早已改變了,所以它在應用上不會很有用。

如果我們再加速10倍就會得到這個每秒處理五幀畫面的探測器。

TED演講搬運:計算機如何學會瞬間識別物體

這就好多了。但是如果出現一個很重大的動作,我不會想用這個系統幫我開車。

這個是在現實生活中我的計算機用的探測系統。它能順暢地在我沿著邊框動的時候追蹤我,而且它能感知多種多樣的大小、姿勢、前進和後退上的變化。

TED演講搬運:計算機如何學會瞬間識別物體

如果我們要用電腦視覺來建造系統這才是我們想要的。

在幾年之內,我們從20秒一張圖像到20毫秒一張圖像,加速了1000倍。我們是怎麼做到的?在過去,物體探測系統會像這樣處理這張圖片並將它分成一大堆小區域並且在這些區域內使用分辨器。

TED演講搬運:計算機如何學會瞬間識別物體

分辨器相似度高的會成為對這張圖像的探測結果。但是這個過程需要在圖像上運轉分辨器上千次,需要上千次的神經系統評估來產生探測結果。現在,我們訓練一個網絡系統來做所有的探測工作。它同時產生所有的方框和分類的可能。用這個系統,你不再需要看一個圖像上千次來產生預測,你只需要看一次即可,因此它被稱為YOLO探測法。所以,有了這個速度,我們能探測的不僅限於一張單一的圖像,我們可以處理一段視頻。而且現在我們不僅限於只看到貓和狗,我們看到它們到處走動並且互動。

TED演講搬運:計算機如何學會瞬間識別物體

這個探測器是我們用微軟的COCO資料庫中80個不同級別的資料測試的。資料庫裡有勺子、叉子、碗等常見物品。

TED演講搬運:計算機如何學會瞬間識別物體

以及動物、汽車、斑馬、長頸鹿等戶外物品。

TED演講搬運:計算機如何學會瞬間識別物體

現在我們要做一些有趣的事情。我們要走進觀眾看看它能探測什麼東西。有人想要玩具填充動物嗎?那裡有一些泰迪熊。然後我們可以降低一點我們對探測的防備來讓我們找到各位觀眾。我們看看計算機能不能找到這些禁行標誌。

TED演講搬運:計算機如何學會瞬間識別物體

計算機識別觀眾手中的Stop標誌

我們找到一些揹包。讓我們把圖像放大。很好。所有這些處理過程都發生在真實生活中的計算機裡。

而且這是一個通用的探測系統,所以我們可以在各種領域的圖像訓練它。我們可以用在自動駕駛汽車裡探測禁行標誌、行人或自行車的同樣的編碼在細胞活檢中找到癌細胞。世界各地已經有研究者用這種技術來改進如藥物和機器人等東西。今天早上,我在報紙裡讀到內羅比國家公園已經用帶有YOLO探測器的系統做動物普查。因為Darknet是一個公共資源並且免費向所有人開放。

但是我們想要得到更容易使用的探測系統。所以通過對模型最優化、網絡二值化和和近似化,我們有了可以在手機上運行的物體探測器。

現在,針對低層次的計算機視覺問題我們找到了有力的解決辦法,而且任何人都可以用它建構一些東西,我因此而感到激動。所以現在接下來的事情將取決於你們以及世界上能夠利用這個軟件的人們,我等不及看到人們用這種軟件建造的東西。謝謝!

作者:頭條號 / 大麥村

鏈接:http://toutiao.com/i6314456769498186242/

來源:頭條號(今日頭條旗下創作平臺)

著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

相關推薦

推薦中...