FPGA與圖像處理

機器學習 圖像處理 CPU GPU 人工智能 朗銳智科 2018-11-29

機器視覺是人工智能領域中的一個重要分支,目前正處於不斷髮展的階段。機器視覺在常規意義上就是通過光學裝置和非接觸傳感器自動的接受和處理一個真實場景的圖像,通過分析圖像獲得所需信息或用於控制機器運動的裝置,可以看出智能圖像技術處理在機器視覺中佔有舉足輕重的地位。

基於軟件的圖像處理方法存在著一些侷限性,尤其是計算速度和算法效率方面。所以大家很自然的就想到了FPGA作為嵌入式圖像應用的平臺。許多圖像處理本身就是並行計算的,並且FPGA的編程硬件,本質上也是並行的。但是利用FPGA硬件進行圖像處理存在很多的困難,需要學到很多的技巧。

FPGA與圖像處理

用FPGA做圖像處理最關鍵的一點優勢就是:FPGA能進行實時流水線運算,能達到最高的實時性。因此在一些對實時性要求非常高的應用領域,做圖像處理基本就只能用FPGA。例如在一些分選設備中圖像處理基本上用的都是FPGA,因為在其中相機從看到物料圖像到給出執行指令之間的延時大概只有幾毫秒,這就要求圖像處理必須很快且延時固定,只有FPGA進行的實時流水線運算才能滿足這一要求。

所以要了解FPGA進行圖像處理的優勢就必須理解FPGA所能進行的實時流水線運算和DSP,GPU等進行的圖像處理運算有何不同。DSP,GPU,CPU對圖像的處理基本是以幀為單位的,從相機採集的圖像數據會先存在內存中,然後GPU會讀取內存中的圖像數據進行處理。假如採集圖像的幀率是30幀,那麼DSP,GPU要是能在1/30秒內完成一幀圖像的處理,那基本上就能算是實時處理。

FPGA對圖像進行實時流水線運算是以行為單位的。FPGA可以直接和圖像傳感器芯片連接獲得圖像數據流,如果是RAW格式的則還可以進行差值以獲得RGB圖像數據。FPGA能進行實時流水線處理的關鍵是它可以用其內部的Block Ram緩存若干行的圖像數據。這個Block Ram可以說是類似於CPU裡面的Cache,但Cache不是你能完全控制的,但Block Ram是完全可控的,可以用它實現各種靈活的運算處理。這樣FPGA通過緩存若干行圖像數據就可以對圖像進行實時處理,數據就這樣一邊流過就一邊處理好了,不需要送入DDR緩存了之後再讀出來處理。

FPGA與圖像處理

這樣的數據流處理顯然是順序讀取數據的,那麼也就只能實現那些順序讀取數據的算法,也就是圖像處理中那一大類用3x3到NxN的算子進行的濾波、取邊緣、膨脹腐蝕等算法。可能大家會覺得這些運算似乎都是最基本的圖像處理運算,只是個前端的預處理,似乎用處不大。但問題是隻有FPGA做這樣的運算才是速度最快效率最高的,比如用CPU做一個取邊緣的算法根本就達不到實時。另外別小看了這種NxN算子法,它可以有各種組合和玩法,可以實現分選多種顏色,甚至分辨簡單形狀等功能。FPGA進行的這種算子法處理是並行流水線算法,其延時是固定的,比如用3x3的算子進行處理其給出結果的延時是兩行圖像的時間。還有這個算子法和現在卷積神經網絡中最前面的卷積層運算是類似的。

FPGA中的Block Ram是重要和稀缺資源,能緩存的圖像數據行數是有限的,所以這個NxN的算子中的N不能特別大。當然FPGA也可以接DDR把圖像緩存到其中再讀出來進行處理,但這種處理模式就和CPU差不多了,達不到最高的實時性。其實有些我們認為需要隨機讀取數據的圖像處理算法也是可以並行流水線化的。

FPGA與圖像處理

在密集運算中,耽誤時間和消耗功耗的操作往往不是運算本身,而是把數據從內存中搬來搬去。GPU,CPU在進行運算時要把數據從內存中取出來,算好了在放回去。這樣內存帶寬往往成了運算速度的瓶頸,數據搬運過程中的功耗佔的比重也不會小。FPGA則可以通過堆很多計算硬件的方法把要做的運算都展開,然後數據從中流過,完成一個階段的運算之後就直接流入第二個階段,不需要把一個計算階段完成後的數據再送回內存中,再讀出來交給下一個階段的運算。這樣就會節省很多時間和功耗。現在用FPGA做圖像處理就是這樣乾的,比如先用一個3x3的算子進行濾波,再用一個3x3的算子進行取邊緣,在FPGA流水線算法中,濾波處理完了數據立即就會進行取邊緣處理,是不需要像CPU那樣存回內存再讀出來的。

FPGA進行圖像處理的前景還是挺廣闊的,越來越多的工業應用場合都要求更高的實時性,而這正是FPGA所適合的。還有機器學習領域,神經網絡這種層狀的,不需要很隨機的讀取數據的運算是比較適合用FPGA來做的。不過FPGA不擅長浮點運算,如果能整出不需要浮點運算的神經網絡,那麼FPGA在這方面的應用將會更大。

相關推薦

推薦中...