"

日前,華為、蘋果等公司的新款手機密集發佈,在發佈會上,大家都把人工智能和拍照功能作為宣傳的一個亮點。出現這種情況的主要原因在於,智能手機經過多年的發展,其硬件已經趨於成熟,特別是幾大芯片公司的CPU、GPU IP核都從ARM購買,進而帶來了手機CPU、GPU高度同質化的問題。因此,NPU和拍照功能成為手機廠商差異化競爭的亮點。

"

日前,華為、蘋果等公司的新款手機密集發佈,在發佈會上,大家都把人工智能和拍照功能作為宣傳的一個亮點。出現這種情況的主要原因在於,智能手機經過多年的發展,其硬件已經趨於成熟,特別是幾大芯片公司的CPU、GPU IP核都從ARM購買,進而帶來了手機CPU、GPU高度同質化的問題。因此,NPU和拍照功能成為手機廠商差異化競爭的亮點。

NPU緣何從同構走向異構


人工智能芯片的發展演變

最初,行業裡並沒有獨立的NPU,英特爾、英偉達、高通等公司用CPU、GPU、DSP等傳統芯片運行AI應用。這樣做的好處是可以利用現有技術,可以較快的切入市場。但缺點很明顯,那就是性能功耗比偏低。

為了追求更好的用戶體驗,工程師以犧牲通用性換取市場高性能的方式開發了專門的NPU。在幾年前,手機NPU是一個單核NPU,進行卷積運算。隨著行業的需求,市場上出現了大小核的NPU,這種NPU演變類似於以前CPU從單核變到大小核的架構,大核心與小核心基於同一個架構設計,大小核該怎樣工作就怎樣工作,唯一的區別是小核是大核的裁減,小核的頻率低一點或者性能低一點,這樣省一些功耗。同時,當出現高負載任務時,大核心能夠憑藉較強的性能頂上去,進而使芯片具有較強性能的同時,降低芯片的功耗。

大小核NPU也是延續大小核CPU的設計邏輯,只不過,這種大小核NPU依然是同構的,這使其在AI應用上已有點跟不上時代了。

這主要是因為隨著人工智能場景以及需求的變化,在某些應用領域,AI神經網絡模型還在發展,應用場景也越來越豐富。這就對硬件也提出越來越多樣化的要求,如果仍以原有的單核NPU架構加速,效率上和靈活性上會受到如何影響。

正是因此,專門用於AI加速的NPU從單核走向了大小核,但這些NPU的一個共性是滿足於現在已經固定下來的場景和應用,是一個很不錯的選擇,但這在AI領域是不夠的,因為AI應用還在不斷的發展。基於這一點異構NPU應運而生。

"

日前,華為、蘋果等公司的新款手機密集發佈,在發佈會上,大家都把人工智能和拍照功能作為宣傳的一個亮點。出現這種情況的主要原因在於,智能手機經過多年的發展,其硬件已經趨於成熟,特別是幾大芯片公司的CPU、GPU IP核都從ARM購買,進而帶來了手機CPU、GPU高度同質化的問題。因此,NPU和拍照功能成為手機廠商差異化競爭的亮點。

NPU緣何從同構走向異構


人工智能芯片的發展演變

最初,行業裡並沒有獨立的NPU,英特爾、英偉達、高通等公司用CPU、GPU、DSP等傳統芯片運行AI應用。這樣做的好處是可以利用現有技術,可以較快的切入市場。但缺點很明顯,那就是性能功耗比偏低。

為了追求更好的用戶體驗,工程師以犧牲通用性換取市場高性能的方式開發了專門的NPU。在幾年前,手機NPU是一個單核NPU,進行卷積運算。隨著行業的需求,市場上出現了大小核的NPU,這種NPU演變類似於以前CPU從單核變到大小核的架構,大核心與小核心基於同一個架構設計,大小核該怎樣工作就怎樣工作,唯一的區別是小核是大核的裁減,小核的頻率低一點或者性能低一點,這樣省一些功耗。同時,當出現高負載任務時,大核心能夠憑藉較強的性能頂上去,進而使芯片具有較強性能的同時,降低芯片的功耗。

大小核NPU也是延續大小核CPU的設計邏輯,只不過,這種大小核NPU依然是同構的,這使其在AI應用上已有點跟不上時代了。

這主要是因為隨著人工智能場景以及需求的變化,在某些應用領域,AI神經網絡模型還在發展,應用場景也越來越豐富。這就對硬件也提出越來越多樣化的要求,如果仍以原有的單核NPU架構加速,效率上和靈活性上會受到如何影響。

正是因此,專門用於AI加速的NPU從單核走向了大小核,但這些NPU的一個共性是滿足於現在已經固定下來的場景和應用,是一個很不錯的選擇,但這在AI領域是不夠的,因為AI應用還在不斷的發展。基於這一點異構NPU應運而生。

NPU緣何從同構走向異構


異構NPU實現擇善而用 高效協同

由於CPU、GPU、DSP、AISC等芯片各具特點,有各自擅長的能力,從CPU到AISC,上述幾款芯片的專用性越來越強。由於通用性和絕對性能不可兼得,上述幾類芯片在性能提升的同時通用性缺越來越弱。因而可以將這幾類芯片組合使用,讓各類跑其擅長的事情——讓農夫去種菜,讓屠夫去殺豬,讓廚師去烹飪,讓專業的人做專業的事情,實現效率和資源配置的最優化。

異構計算在超算上已經有很成功的應用,比如曾經位列TOP500第一的神威太湖之光和天河二號超算,都屬於異構超算——神威太湖之光超算使用SW26010芯片上的管理核心做任務管理,讓芯片上256個小核心做加速去負責運算;天河二A用英特爾至強CPU做任務管理,讓矩陣2000做加速器負責運算。這使這兩臺超算在取得超高性能的同時,將功耗控制的比較好。

"

日前,華為、蘋果等公司的新款手機密集發佈,在發佈會上,大家都把人工智能和拍照功能作為宣傳的一個亮點。出現這種情況的主要原因在於,智能手機經過多年的發展,其硬件已經趨於成熟,特別是幾大芯片公司的CPU、GPU IP核都從ARM購買,進而帶來了手機CPU、GPU高度同質化的問題。因此,NPU和拍照功能成為手機廠商差異化競爭的亮點。

NPU緣何從同構走向異構


人工智能芯片的發展演變

最初,行業裡並沒有獨立的NPU,英特爾、英偉達、高通等公司用CPU、GPU、DSP等傳統芯片運行AI應用。這樣做的好處是可以利用現有技術,可以較快的切入市場。但缺點很明顯,那就是性能功耗比偏低。

為了追求更好的用戶體驗,工程師以犧牲通用性換取市場高性能的方式開發了專門的NPU。在幾年前,手機NPU是一個單核NPU,進行卷積運算。隨著行業的需求,市場上出現了大小核的NPU,這種NPU演變類似於以前CPU從單核變到大小核的架構,大核心與小核心基於同一個架構設計,大小核該怎樣工作就怎樣工作,唯一的區別是小核是大核的裁減,小核的頻率低一點或者性能低一點,這樣省一些功耗。同時,當出現高負載任務時,大核心能夠憑藉較強的性能頂上去,進而使芯片具有較強性能的同時,降低芯片的功耗。

大小核NPU也是延續大小核CPU的設計邏輯,只不過,這種大小核NPU依然是同構的,這使其在AI應用上已有點跟不上時代了。

這主要是因為隨著人工智能場景以及需求的變化,在某些應用領域,AI神經網絡模型還在發展,應用場景也越來越豐富。這就對硬件也提出越來越多樣化的要求,如果仍以原有的單核NPU架構加速,效率上和靈活性上會受到如何影響。

正是因此,專門用於AI加速的NPU從單核走向了大小核,但這些NPU的一個共性是滿足於現在已經固定下來的場景和應用,是一個很不錯的選擇,但這在AI領域是不夠的,因為AI應用還在不斷的發展。基於這一點異構NPU應運而生。

NPU緣何從同構走向異構


異構NPU實現擇善而用 高效協同

由於CPU、GPU、DSP、AISC等芯片各具特點,有各自擅長的能力,從CPU到AISC,上述幾款芯片的專用性越來越強。由於通用性和絕對性能不可兼得,上述幾類芯片在性能提升的同時通用性缺越來越弱。因而可以將這幾類芯片組合使用,讓各類跑其擅長的事情——讓農夫去種菜,讓屠夫去殺豬,讓廚師去烹飪,讓專業的人做專業的事情,實現效率和資源配置的最優化。

異構計算在超算上已經有很成功的應用,比如曾經位列TOP500第一的神威太湖之光和天河二號超算,都屬於異構超算——神威太湖之光超算使用SW26010芯片上的管理核心做任務管理,讓芯片上256個小核心做加速去負責運算;天河二A用英特爾至強CPU做任務管理,讓矩陣2000做加速器負責運算。這使這兩臺超算在取得超高性能的同時,將功耗控制的比較好。

NPU緣何從同構走向異構


美國最新兩臺超算,在性能上超越了神威太湖之光,這兩臺超算也是異構超算,目前,中美正在研發的E級超算,也屬於異構超算,這充分展現了異構計算的優勢。無獨有偶,英特爾公司在收購阿爾特拉之後,也推出CPU+FPGA新型至強處理器,並宣稱這種處理器對於傳統的處理器具有明顯優勢。

很顯然,展銳開創異構雙核NPU,也是立足於異構計算的獨特優勢。

移動AI發展到現在,經過這兩到三年的探索和實踐,大家逐漸發現在圖像類的應用,可以用8比特定點量化的方式大幅的減少計算代價,從FP32到FP16,人臉識別算法已經相對成熟,模式相對固定,但是整個AI神經網絡模型還在發展,因為還有很多類應用,比如語音對精度的要求更高,需要浮點能力,仍然沒有確定下來什麼樣的精度模式最適合,這是在發展過程中必然的現象,在這個時間點上,如果基於目前應用的設計架構,會對NPU的通用性和靈活性造成影響,對效率有影響。而大小核NPU只能平衡性能和功耗,卻無法解決效率問題,這也是前文鐵流指出大小核NPU在AI應用中已有點跟不上時代了。正是因此,銳引進了異構雙核NPU設計,來解決效率問題。

對於已經相對成熟的圖像分類的神經網絡,基本上都是量化,用一種固化的方式做更高效的實現,另一部分,則必須要考慮靈活性。展銳用一個核做固化的圖像類的模型,幾乎擁有這個領域裡面最好的效率,另一面,由於模型還在發展,應用還在發展,因而必須考慮兼容性,必須考慮到針對不同場景採用不同的模型,必須給未來可能的應用足夠的彈性空間,這就是展銳的異構雙核NPU的設計思路。

藉助異構雙核NPU的設計,展銳實現了擇善而用,高效協同,動態調度,雖然在鐵流的介紹中說起來好像很簡單,但要實現卻並不容易,比如AI Benchmark有新的模型,怎麼通過調度的方式去跑,哪些模型更適合這個核,這個需要不斷調試完善的過程。可以說,就異構雙核NPU來說,展銳是第一個吃螃蟹的,是具有開創性的新穎設計。

"

日前,華為、蘋果等公司的新款手機密集發佈,在發佈會上,大家都把人工智能和拍照功能作為宣傳的一個亮點。出現這種情況的主要原因在於,智能手機經過多年的發展,其硬件已經趨於成熟,特別是幾大芯片公司的CPU、GPU IP核都從ARM購買,進而帶來了手機CPU、GPU高度同質化的問題。因此,NPU和拍照功能成為手機廠商差異化競爭的亮點。

NPU緣何從同構走向異構


人工智能芯片的發展演變

最初,行業裡並沒有獨立的NPU,英特爾、英偉達、高通等公司用CPU、GPU、DSP等傳統芯片運行AI應用。這樣做的好處是可以利用現有技術,可以較快的切入市場。但缺點很明顯,那就是性能功耗比偏低。

為了追求更好的用戶體驗,工程師以犧牲通用性換取市場高性能的方式開發了專門的NPU。在幾年前,手機NPU是一個單核NPU,進行卷積運算。隨著行業的需求,市場上出現了大小核的NPU,這種NPU演變類似於以前CPU從單核變到大小核的架構,大核心與小核心基於同一個架構設計,大小核該怎樣工作就怎樣工作,唯一的區別是小核是大核的裁減,小核的頻率低一點或者性能低一點,這樣省一些功耗。同時,當出現高負載任務時,大核心能夠憑藉較強的性能頂上去,進而使芯片具有較強性能的同時,降低芯片的功耗。

大小核NPU也是延續大小核CPU的設計邏輯,只不過,這種大小核NPU依然是同構的,這使其在AI應用上已有點跟不上時代了。

這主要是因為隨著人工智能場景以及需求的變化,在某些應用領域,AI神經網絡模型還在發展,應用場景也越來越豐富。這就對硬件也提出越來越多樣化的要求,如果仍以原有的單核NPU架構加速,效率上和靈活性上會受到如何影響。

正是因此,專門用於AI加速的NPU從單核走向了大小核,但這些NPU的一個共性是滿足於現在已經固定下來的場景和應用,是一個很不錯的選擇,但這在AI領域是不夠的,因為AI應用還在不斷的發展。基於這一點異構NPU應運而生。

NPU緣何從同構走向異構


異構NPU實現擇善而用 高效協同

由於CPU、GPU、DSP、AISC等芯片各具特點,有各自擅長的能力,從CPU到AISC,上述幾款芯片的專用性越來越強。由於通用性和絕對性能不可兼得,上述幾類芯片在性能提升的同時通用性缺越來越弱。因而可以將這幾類芯片組合使用,讓各類跑其擅長的事情——讓農夫去種菜,讓屠夫去殺豬,讓廚師去烹飪,讓專業的人做專業的事情,實現效率和資源配置的最優化。

異構計算在超算上已經有很成功的應用,比如曾經位列TOP500第一的神威太湖之光和天河二號超算,都屬於異構超算——神威太湖之光超算使用SW26010芯片上的管理核心做任務管理,讓芯片上256個小核心做加速去負責運算;天河二A用英特爾至強CPU做任務管理,讓矩陣2000做加速器負責運算。這使這兩臺超算在取得超高性能的同時,將功耗控制的比較好。

NPU緣何從同構走向異構


美國最新兩臺超算,在性能上超越了神威太湖之光,這兩臺超算也是異構超算,目前,中美正在研發的E級超算,也屬於異構超算,這充分展現了異構計算的優勢。無獨有偶,英特爾公司在收購阿爾特拉之後,也推出CPU+FPGA新型至強處理器,並宣稱這種處理器對於傳統的處理器具有明顯優勢。

很顯然,展銳開創異構雙核NPU,也是立足於異構計算的獨特優勢。

移動AI發展到現在,經過這兩到三年的探索和實踐,大家逐漸發現在圖像類的應用,可以用8比特定點量化的方式大幅的減少計算代價,從FP32到FP16,人臉識別算法已經相對成熟,模式相對固定,但是整個AI神經網絡模型還在發展,因為還有很多類應用,比如語音對精度的要求更高,需要浮點能力,仍然沒有確定下來什麼樣的精度模式最適合,這是在發展過程中必然的現象,在這個時間點上,如果基於目前應用的設計架構,會對NPU的通用性和靈活性造成影響,對效率有影響。而大小核NPU只能平衡性能和功耗,卻無法解決效率問題,這也是前文鐵流指出大小核NPU在AI應用中已有點跟不上時代了。正是因此,銳引進了異構雙核NPU設計,來解決效率問題。

對於已經相對成熟的圖像分類的神經網絡,基本上都是量化,用一種固化的方式做更高效的實現,另一部分,則必須要考慮靈活性。展銳用一個核做固化的圖像類的模型,幾乎擁有這個領域裡面最好的效率,另一面,由於模型還在發展,應用還在發展,因而必須考慮兼容性,必須考慮到針對不同場景採用不同的模型,必須給未來可能的應用足夠的彈性空間,這就是展銳的異構雙核NPU的設計思路。

藉助異構雙核NPU的設計,展銳實現了擇善而用,高效協同,動態調度,雖然在鐵流的介紹中說起來好像很簡單,但要實現卻並不容易,比如AI Benchmark有新的模型,怎麼通過調度的方式去跑,哪些模型更適合這個核,這個需要不斷調試完善的過程。可以說,就異構雙核NPU來說,展銳是第一個吃螃蟹的,是具有開創性的新穎設計。

NPU緣何從同構走向異構


結語

除了可以用於智能手機之外,虎賁T710還是一個高性能AI邊緣計算平臺,在工業、商業、醫療、家居、教育等領域商用的潛力。目前,已經有行業客戶基於虎賁T710搭建高性能AI邊緣計算平臺。

目前,人工智能應用還是比較粗淺的,還有很大提升和挖掘空間,相信隨著人工智能對人民生活和生產的影響越發深入,AI應用越來越多樣化,異構NPU會取得更多客戶的青睞。

"

相關推薦

推薦中...