'NPU緣何從同構走向異構'

人工智能英特爾智能手機 GPU 中央處理器設計 ARM 英偉達算法硬件華為公司 Xeon 高通蘋果公司攝影人臉識別工程師鐵流鐵君1888 2019-09-16

日前，華為、蘋果等公司的新款手機密集發佈，在發佈會上，大家都把人工智能和拍照功能作為宣傳的一個亮點。出現這種情況的主要原因在於，智能手機經過多年的發展，其硬件已經趨於成熟，特別是幾大芯片公司的CPU、GPU IP核都從ARM購買，進而帶來了手機CPU、GPU高度同質化的問題。因此，NPU和拍照功能成為手機廠商差異化競爭的亮點。

人工智能芯片的發展演變

最初，行業裡並沒有獨立的NPU，英特爾、英偉達、高通等公司用CPU、GPU、DSP等傳統芯片運行AI應用。這樣做的好處是可以利用現有技術，可以較快的切入市場。但缺點很明顯，那就是性能功耗比偏低。

為了追求更好的用戶體驗，工程師以犧牲通用性換取市場高性能的方式開發了專門的NPU。在幾年前，手機NPU是一個單核NPU，進行卷積運算。隨著行業的需求，市場上出現了大小核的NPU，這種NPU演變類似於以前CPU從單核變到大小核的架構，大核心與小核心基於同一個架構設計，大小核該怎樣工作就怎樣工作，唯一的區別是小核是大核的裁減，小核的頻率低一點或者性能低一點，這樣省一些功耗。同時，當出現高負載任務時，大核心能夠憑藉較強的性能頂上去，進而使芯片具有較強性能的同時，降低芯片的功耗。

大小核NPU也是延續大小核CPU的設計邏輯，只不過，這種大小核NPU依然是同構的，這使其在AI應用上已有點跟不上時代了。

這主要是因為隨著人工智能場景以及需求的變化，在某些應用領域，AI神經網絡模型還在發展，應用場景也越來越豐富。這就對硬件也提出越來越多樣化的要求，如果仍以原有的單核NPU架構加速，效率上和靈活性上會受到如何影響。

正是因此，專門用於AI加速的NPU從單核走向了大小核，但這些NPU的一個共性是滿足於現在已經固定下來的場景和應用，是一個很不錯的選擇，但這在AI領域是不夠的，因為AI應用還在不斷的發展。基於這一點異構NPU應運而生。

人工智能芯片的發展演變

大小核NPU也是延續大小核CPU的設計邏輯，只不過，這種大小核NPU依然是同構的，這使其在AI應用上已有點跟不上時代了。

異構NPU實現擇善而用高效協同

由於CPU、GPU、DSP、AISC等芯片各具特點，有各自擅長的能力，從CPU到AISC，上述幾款芯片的專用性越來越強。由於通用性和絕對性能不可兼得，上述幾類芯片在性能提升的同時通用性缺越來越弱。因而可以將這幾類芯片組合使用，讓各類跑其擅長的事情——讓農夫去種菜，讓屠夫去殺豬，讓廚師去烹飪，讓專業的人做專業的事情，實現效率和資源配置的最優化。

異構計算在超算上已經有很成功的應用，比如曾經位列TOP500第一的神威太湖之光和天河二號超算，都屬於異構超算——神威太湖之光超算使用SW26010芯片上的管理核心做任務管理，讓芯片上256個小核心做加速去負責運算；天河二A用英特爾至強CPU做任務管理，讓矩陣2000做加速器負責運算。這使這兩臺超算在取得超高性能的同時，將功耗控制的比較好。

人工智能芯片的發展演變

大小核NPU也是延續大小核CPU的設計邏輯，只不過，這種大小核NPU依然是同構的，這使其在AI應用上已有點跟不上時代了。

異構NPU實現擇善而用高效協同

美國最新兩臺超算，在性能上超越了神威太湖之光，這兩臺超算也是異構超算，目前，中美正在研發的E級超算，也屬於異構超算，這充分展現了異構計算的優勢。無獨有偶，英特爾公司在收購阿爾特拉之後，也推出CPU+FPGA新型至強處理器，並宣稱這種處理器對於傳統的處理器具有明顯優勢。

很顯然，展銳開創異構雙核NPU，也是立足於異構計算的獨特優勢。

移動AI發展到現在，經過這兩到三年的探索和實踐，大家逐漸發現在圖像類的應用，可以用8比特定點量化的方式大幅的減少計算代價，從FP32到FP16，人臉識別算法已經相對成熟，模式相對固定，但是整個AI神經網絡模型還在發展，因為還有很多類應用，比如語音對精度的要求更高，需要浮點能力，仍然沒有確定下來什麼樣的精度模式最適合，這是在發展過程中必然的現象，在這個時間點上，如果基於目前應用的設計架構，會對NPU的通用性和靈活性造成影響，對效率有影響。而大小核NPU只能平衡性能和功耗，卻無法解決效率問題，這也是前文鐵流指出大小核NPU在AI應用中已有點跟不上時代了。正是因此，銳引進了異構雙核NPU設計，來解決效率問題。

對於已經相對成熟的圖像分類的神經網絡，基本上都是量化，用一種固化的方式做更高效的實現，另一部分，則必須要考慮靈活性。展銳用一個核做固化的圖像類的模型，幾乎擁有這個領域裡面最好的效率，另一面，由於模型還在發展，應用還在發展，因而必須考慮兼容性，必須考慮到針對不同場景採用不同的模型，必須給未來可能的應用足夠的彈性空間，這就是展銳的異構雙核NPU的設計思路。

藉助異構雙核NPU的設計，展銳實現了擇善而用，高效協同，動態調度，雖然在鐵流的介紹中說起來好像很簡單，但要實現卻並不容易，比如AI Benchmark有新的模型，怎麼通過調度的方式去跑，哪些模型更適合這個核，這個需要不斷調試完善的過程。可以說，就異構雙核NPU來說，展銳是第一個吃螃蟹的，是具有開創性的新穎設計。

人工智能芯片的發展演變

大小核NPU也是延續大小核CPU的設計邏輯，只不過，這種大小核NPU依然是同構的，這使其在AI應用上已有點跟不上時代了。

異構NPU實現擇善而用高效協同

很顯然，展銳開創異構雙核NPU，也是立足於異構計算的獨特優勢。

結語

除了可以用於智能手機之外，虎賁T710還是一個高性能AI邊緣計算平臺，在工業、商業、醫療、家居、教育等領域商用的潛力。目前，已經有行業客戶基於虎賁T710搭建高性能AI邊緣計算平臺。

目前，人工智能應用還是比較粗淺的，還有很大提升和挖掘空間，相信隨著人工智能對人民生活和生產的影響越發深入，AI應用越來越多樣化，異構NPU會取得更多客戶的青睞。

'NPU緣何從同構走向異構'

相關推薦