'全球首個軟硬件推理平臺:NVDLA 編譯器正式開源'

"

原創:HyperAI超神經

關鍵詞:英偉達 深度學習 加速器

2017 年,英偉達發佈了深度學習加速器 NVDLA,全稱 NVIDIA DeepLearning Accelerator,以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中,它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

而最近,英偉達在 GitHub 上開源了 NVDLA 編譯器的源代碼,這是世界上首個軟硬件推理平臺的完整開源代碼。系統架構師和軟件開發者們,現在已可訪問這個軟硬件推理平臺。

"

原創:HyperAI超神經

關鍵詞:英偉達 深度學習 加速器

2017 年,英偉達發佈了深度學習加速器 NVDLA,全稱 NVIDIA DeepLearning Accelerator,以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中,它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

而最近,英偉達在 GitHub 上開源了 NVDLA 編譯器的源代碼,這是世界上首個軟硬件推理平臺的完整開源代碼。系統架構師和軟件開發者們,現在已可訪問這個軟硬件推理平臺。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

使用 NVDLA 進行物體檢測

在本文中,將詳細介紹網絡圖形編譯器,是如何提升了專用硬件加速器的性能,並介紹在雲端,如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖,將預訓練的神經網絡模型層中定義的任務,映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件,另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元,可以實現同時調度,或者在流水線配置中實現調度。

"

原創:HyperAI超神經

關鍵詞:英偉達 深度學習 加速器

2017 年,英偉達發佈了深度學習加速器 NVDLA,全稱 NVIDIA DeepLearning Accelerator,以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中,它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

而最近,英偉達在 GitHub 上開源了 NVDLA 編譯器的源代碼,這是世界上首個軟硬件推理平臺的完整開源代碼。系統架構師和軟件開發者們,現在已可訪問這個軟硬件推理平臺。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

使用 NVDLA 進行物體檢測

在本文中,將詳細介紹網絡圖形編譯器,是如何提升了專用硬件加速器的性能,並介紹在雲端,如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖,將預訓練的神經網絡模型層中定義的任務,映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件,另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元,可以實現同時調度,或者在流水線配置中實現調度。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

NVDLA 架構圖

此外,它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級特性,如芯片上的 SRAM 接口、連接微控制器的能力。

"

原創:HyperAI超神經

關鍵詞:英偉達 深度學習 加速器

2017 年,英偉達發佈了深度學習加速器 NVDLA,全稱 NVIDIA DeepLearning Accelerator,以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中,它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

而最近,英偉達在 GitHub 上開源了 NVDLA 編譯器的源代碼,這是世界上首個軟硬件推理平臺的完整開源代碼。系統架構師和軟件開發者們,現在已可訪問這個軟硬件推理平臺。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

使用 NVDLA 進行物體檢測

在本文中,將詳細介紹網絡圖形編譯器,是如何提升了專用硬件加速器的性能,並介紹在雲端,如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖,將預訓練的神經網絡模型層中定義的任務,映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件,另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元,可以實現同時調度,或者在流水線配置中實現調度。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

NVDLA 架構圖

此外,它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級特性,如芯片上的 SRAM 接口、連接微控制器的能力。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

NVDLA 小型配置文件模型

硬件架構是模塊化的,它被設計成可自由伸縮的形態,小到嵌入式物聯網設計,大到使用NVDLA 單元陣列的大型數據中心,都能完美適用。

編譯器可以根據多項因素進行調優:NVDLA 硬件配置、系統的 CPU 和內存控制配置,以及應用程序的自定義神經網絡用例等等。

NVDLA 是如何提升性能的

在大型的 NVDLA 設計上,層融合和管道調度之類的編譯器優化,表現性能良好,可廣泛應用於多種神經網絡架構,能提供高達 3 倍的性能效益。

這種優化後的靈活性,是實現跨大型網絡模型(如ResNet-50)和小型網絡模型(如 MobileNet)的性能優化的重要原因。

對於較小的 NVDLA 設計,編譯器優化(如 Memory tiling )也是提高性能效率的關鍵。

Memory tiling 設計能在權重和激活數據之間,平衡芯片上緩衝區的使用,從而最小化芯片外存儲的流量和能耗。

用戶還可以自由地創建定製的圖層,並根據自己的特殊用例進行調優,或者使用最新的算法進行實驗。

為了方便對比,可以根據下面的性能數字,評估 NVDLA 大型模型的預期性能。測量數據來自 Jetson AGX Xavier 開發工具上的一個 NVDLA 核心捕獲。

"

原創:HyperAI超神經

關鍵詞:英偉達 深度學習 加速器

2017 年,英偉達發佈了深度學習加速器 NVDLA,全稱 NVIDIA DeepLearning Accelerator,以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中,它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

而最近,英偉達在 GitHub 上開源了 NVDLA 編譯器的源代碼,這是世界上首個軟硬件推理平臺的完整開源代碼。系統架構師和軟件開發者們,現在已可訪問這個軟硬件推理平臺。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

使用 NVDLA 進行物體檢測

在本文中,將詳細介紹網絡圖形編譯器,是如何提升了專用硬件加速器的性能,並介紹在雲端,如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖,將預訓練的神經網絡模型層中定義的任務,映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件,另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元,可以實現同時調度,或者在流水線配置中實現調度。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

NVDLA 架構圖

此外,它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級特性,如芯片上的 SRAM 接口、連接微控制器的能力。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

NVDLA 小型配置文件模型

硬件架構是模塊化的,它被設計成可自由伸縮的形態,小到嵌入式物聯網設計,大到使用NVDLA 單元陣列的大型數據中心,都能完美適用。

編譯器可以根據多項因素進行調優:NVDLA 硬件配置、系統的 CPU 和內存控制配置,以及應用程序的自定義神經網絡用例等等。

NVDLA 是如何提升性能的

在大型的 NVDLA 設計上,層融合和管道調度之類的編譯器優化,表現性能良好,可廣泛應用於多種神經網絡架構,能提供高達 3 倍的性能效益。

這種優化後的靈活性,是實現跨大型網絡模型(如ResNet-50)和小型網絡模型(如 MobileNet)的性能優化的重要原因。

對於較小的 NVDLA 設計,編譯器優化(如 Memory tiling )也是提高性能效率的關鍵。

Memory tiling 設計能在權重和激活數據之間,平衡芯片上緩衝區的使用,從而最小化芯片外存儲的流量和能耗。

用戶還可以自由地創建定製的圖層,並根據自己的特殊用例進行調優,或者使用最新的算法進行實驗。

為了方便對比,可以根據下面的性能數字,評估 NVDLA 大型模型的預期性能。測量數據來自 Jetson AGX Xavier 開發工具上的一個 NVDLA 核心捕獲。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

使用 RISC-V 和 FireSim 在雲端設計

通過這個編譯器版本,NVDLA 用戶可以訪問集成、增添和探索 NVDLA 平臺所需的軟件和硬件源代碼。

如果想要嘗試入手,建議的方式是直接使用 NVDLA 上的 YOLOv3 ,以及雲端的 RISC-V 和 FireSim 進行物體檢測。

在使用 FireSim- NVADLA 時,可按照 FireSim 的說明操作,直到能夠運行單節點模擬為止。

使用指南:http://docs.fires.im/en/1.5.0/index.html

按照教程中的步驟操作,在「設置FireSim Repo」一節中,驗證是否正使用 FireSim -NVADLA 存儲庫,具體的操作代碼如下:

1 git clone https://github.com/CSL-KU/firesim-nvdla
2 cd firesim-nvdla
3 ./build-setup.sh fast

使用 NVDLA 運行單節點模擬之後,按照 NVDLA 教程中的步驟可以立即啟動 YOLOv3。(地址:https://github.com/CSL-KU/firesim-nvdla#running-yolov3-on-nvdla)

這套編譯器已經被 SiFive 這類初創公司所使用,並從中得到了受益。

"

原創:HyperAI超神經

關鍵詞:英偉達 深度學習 加速器

2017 年,英偉達發佈了深度學習加速器 NVDLA,全稱 NVIDIA DeepLearning Accelerator,以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中,它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

而最近,英偉達在 GitHub 上開源了 NVDLA 編譯器的源代碼,這是世界上首個軟硬件推理平臺的完整開源代碼。系統架構師和軟件開發者們,現在已可訪問這個軟硬件推理平臺。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

使用 NVDLA 進行物體檢測

在本文中,將詳細介紹網絡圖形編譯器,是如何提升了專用硬件加速器的性能,並介紹在雲端,如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖,將預訓練的神經網絡模型層中定義的任務,映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件,另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元,可以實現同時調度,或者在流水線配置中實現調度。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

NVDLA 架構圖

此外,它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級特性,如芯片上的 SRAM 接口、連接微控制器的能力。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

NVDLA 小型配置文件模型

硬件架構是模塊化的,它被設計成可自由伸縮的形態,小到嵌入式物聯網設計,大到使用NVDLA 單元陣列的大型數據中心,都能完美適用。

編譯器可以根據多項因素進行調優:NVDLA 硬件配置、系統的 CPU 和內存控制配置,以及應用程序的自定義神經網絡用例等等。

NVDLA 是如何提升性能的

在大型的 NVDLA 設計上,層融合和管道調度之類的編譯器優化,表現性能良好,可廣泛應用於多種神經網絡架構,能提供高達 3 倍的性能效益。

這種優化後的靈活性,是實現跨大型網絡模型(如ResNet-50)和小型網絡模型(如 MobileNet)的性能優化的重要原因。

對於較小的 NVDLA 設計,編譯器優化(如 Memory tiling )也是提高性能效率的關鍵。

Memory tiling 設計能在權重和激活數據之間,平衡芯片上緩衝區的使用,從而最小化芯片外存儲的流量和能耗。

用戶還可以自由地創建定製的圖層,並根據自己的特殊用例進行調優,或者使用最新的算法進行實驗。

為了方便對比,可以根據下面的性能數字,評估 NVDLA 大型模型的預期性能。測量數據來自 Jetson AGX Xavier 開發工具上的一個 NVDLA 核心捕獲。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

使用 RISC-V 和 FireSim 在雲端設計

通過這個編譯器版本,NVDLA 用戶可以訪問集成、增添和探索 NVDLA 平臺所需的軟件和硬件源代碼。

如果想要嘗試入手,建議的方式是直接使用 NVDLA 上的 YOLOv3 ,以及雲端的 RISC-V 和 FireSim 進行物體檢測。

在使用 FireSim- NVADLA 時,可按照 FireSim 的說明操作,直到能夠運行單節點模擬為止。

使用指南:http://docs.fires.im/en/1.5.0/index.html

按照教程中的步驟操作,在「設置FireSim Repo」一節中,驗證是否正使用 FireSim -NVADLA 存儲庫,具體的操作代碼如下:

1 git clone https://github.com/CSL-KU/firesim-nvdla
2 cd firesim-nvdla
3 ./build-setup.sh fast

使用 NVDLA 運行單節點模擬之後,按照 NVDLA 教程中的步驟可以立即啟動 YOLOv3。(地址:https://github.com/CSL-KU/firesim-nvdla#running-yolov3-on-nvdla)

這套編譯器已經被 SiFive 這類初創公司所使用,並從中得到了受益。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

SiFive 使用 NVDLA 進行深度學習推理

據悉,SiFive 在一年前首次在自己的平臺上開始使用 NVDLA,而經過了性能優化的開源 NVDLA 編譯器,能夠創建特定領域的優化 SoC 設計,為 IoT Edge 中的 AI 現代計算需求做足準備。

項目開源地址:

https://github.com/nvdla/sw/releases/tag/v1.2.0-OC

內容來源:

Nvidia Developer Blog


"

原創:HyperAI超神經

關鍵詞:英偉達 深度學習 加速器

2017 年,英偉達發佈了深度學習加速器 NVDLA,全稱 NVIDIA DeepLearning Accelerator,以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中,它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

而最近,英偉達在 GitHub 上開源了 NVDLA 編譯器的源代碼,這是世界上首個軟硬件推理平臺的完整開源代碼。系統架構師和軟件開發者們,現在已可訪問這個軟硬件推理平臺。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

使用 NVDLA 進行物體檢測

在本文中,將詳細介紹網絡圖形編譯器,是如何提升了專用硬件加速器的性能,並介紹在雲端,如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖,將預訓練的神經網絡模型層中定義的任務,映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件,另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元,可以實現同時調度,或者在流水線配置中實現調度。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

NVDLA 架構圖

此外,它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級特性,如芯片上的 SRAM 接口、連接微控制器的能力。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

NVDLA 小型配置文件模型

硬件架構是模塊化的,它被設計成可自由伸縮的形態,小到嵌入式物聯網設計,大到使用NVDLA 單元陣列的大型數據中心,都能完美適用。

編譯器可以根據多項因素進行調優:NVDLA 硬件配置、系統的 CPU 和內存控制配置,以及應用程序的自定義神經網絡用例等等。

NVDLA 是如何提升性能的

在大型的 NVDLA 設計上,層融合和管道調度之類的編譯器優化,表現性能良好,可廣泛應用於多種神經網絡架構,能提供高達 3 倍的性能效益。

這種優化後的靈活性,是實現跨大型網絡模型(如ResNet-50)和小型網絡模型(如 MobileNet)的性能優化的重要原因。

對於較小的 NVDLA 設計,編譯器優化(如 Memory tiling )也是提高性能效率的關鍵。

Memory tiling 設計能在權重和激活數據之間,平衡芯片上緩衝區的使用,從而最小化芯片外存儲的流量和能耗。

用戶還可以自由地創建定製的圖層,並根據自己的特殊用例進行調優,或者使用最新的算法進行實驗。

為了方便對比,可以根據下面的性能數字,評估 NVDLA 大型模型的預期性能。測量數據來自 Jetson AGX Xavier 開發工具上的一個 NVDLA 核心捕獲。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

使用 RISC-V 和 FireSim 在雲端設計

通過這個編譯器版本,NVDLA 用戶可以訪問集成、增添和探索 NVDLA 平臺所需的軟件和硬件源代碼。

如果想要嘗試入手,建議的方式是直接使用 NVDLA 上的 YOLOv3 ,以及雲端的 RISC-V 和 FireSim 進行物體檢測。

在使用 FireSim- NVADLA 時,可按照 FireSim 的說明操作,直到能夠運行單節點模擬為止。

使用指南:http://docs.fires.im/en/1.5.0/index.html

按照教程中的步驟操作,在「設置FireSim Repo」一節中,驗證是否正使用 FireSim -NVADLA 存儲庫,具體的操作代碼如下:

1 git clone https://github.com/CSL-KU/firesim-nvdla
2 cd firesim-nvdla
3 ./build-setup.sh fast

使用 NVDLA 運行單節點模擬之後,按照 NVDLA 教程中的步驟可以立即啟動 YOLOv3。(地址:https://github.com/CSL-KU/firesim-nvdla#running-yolov3-on-nvdla)

這套編譯器已經被 SiFive 這類初創公司所使用,並從中得到了受益。

全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

SiFive 使用 NVDLA 進行深度學習推理

據悉,SiFive 在一年前首次在自己的平臺上開始使用 NVDLA,而經過了性能優化的開源 NVDLA 編譯器,能夠創建特定領域的優化 SoC 設計,為 IoT Edge 中的 AI 現代計算需求做足準備。

項目開源地址:

https://github.com/nvdla/sw/releases/tag/v1.2.0-OC

內容來源:

Nvidia Developer Blog


全球首個軟硬件推理平臺:NVDLA 編譯器正式開源

"

相關推薦

推薦中...