'全球首個軟硬件推理平臺：NVDLA 編譯器正式開源'

編譯器硬件人工智能 GitHub 軟件英偉達深度學習設計 Git 程序員物聯網算法 HyperAI超神經 2019-09-18

原創：HyperAI超神經
關鍵詞：英偉達深度學習加速器

2017 年，英偉達發佈了深度學習加速器 NVDLA，全稱 NVIDIA DeepLearning Accelerator，以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中，它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

而最近，英偉達在 GitHub 上開源了 NVDLA 編譯器的源代碼，這是世界上首個軟硬件推理平臺的完整開源代碼。系統架構師和軟件開發者們，現在已可訪問這個軟硬件推理平臺。

原創：HyperAI超神經
關鍵詞：英偉達深度學習加速器

2017 年，英偉達發佈了深度學習加速器 NVDLA，全稱 NVIDIA DeepLearning Accelerator，以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中，它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

使用 NVDLA 進行物體檢測

在本文中，將詳細介紹網絡圖形編譯器，是如何提升了專用硬件加速器的性能，並介紹在雲端，如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖，將預訓練的神經網絡模型層中定義的任務，映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件，另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元，可以實現同時調度，或者在流水線配置中實現調度。

原創：HyperAI超神經
關鍵詞：英偉達深度學習加速器

2017 年，英偉達發佈了深度學習加速器 NVDLA，全稱 NVIDIA DeepLearning Accelerator，以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中，它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

使用 NVDLA 進行物體檢測

在本文中，將詳細介紹網絡圖形編譯器，是如何提升了專用硬件加速器的性能，並介紹在雲端，如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖，將預訓練的神經網絡模型層中定義的任務，映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件，另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元，可以實現同時調度，或者在流水線配置中實現調度。

NVDLA 架構圖

此外，它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級特性，如芯片上的 SRAM 接口、連接微控制器的能力。

原創：HyperAI超神經
關鍵詞：英偉達深度學習加速器

2017 年，英偉達發佈了深度學習加速器 NVDLA，全稱 NVIDIA DeepLearning Accelerator，以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中，它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

使用 NVDLA 進行物體檢測

在本文中，將詳細介紹網絡圖形編譯器，是如何提升了專用硬件加速器的性能，並介紹在雲端，如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖，將預訓練的神經網絡模型層中定義的任務，映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件，另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元，可以實現同時調度，或者在流水線配置中實現調度。

NVDLA 架構圖

此外，它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級特性，如芯片上的 SRAM 接口、連接微控制器的能力。

NVDLA 小型配置文件模型

硬件架構是模塊化的，它被設計成可自由伸縮的形態，小到嵌入式物聯網設計，大到使用NVDLA 單元陣列的大型數據中心，都能完美適用。

編譯器可以根據多項因素進行調優：NVDLA 硬件配置、系統的 CPU 和內存控制配置，以及應用程序的自定義神經網絡用例等等。

NVDLA 是如何提升性能的

在大型的 NVDLA 設計上，層融合和管道調度之類的編譯器優化，表現性能良好，可廣泛應用於多種神經網絡架構，能提供高達 3 倍的性能效益。

這種優化後的靈活性，是實現跨大型網絡模型（如ResNet-50）和小型網絡模型（如 MobileNet）的性能優化的重要原因。

對於較小的 NVDLA 設計，編譯器優化(如 Memory tiling )也是提高性能效率的關鍵。

Memory tiling 設計能在權重和激活數據之間，平衡芯片上緩衝區的使用，從而最小化芯片外存儲的流量和能耗。

用戶還可以自由地創建定製的圖層，並根據自己的特殊用例進行調優，或者使用最新的算法進行實驗。

為了方便對比，可以根據下面的性能數字，評估 NVDLA 大型模型的預期性能。測量數據來自 Jetson AGX Xavier 開發工具上的一個 NVDLA 核心捕獲。

原創：HyperAI超神經
關鍵詞：英偉達深度學習加速器

2017 年，英偉達發佈了深度學習加速器 NVDLA，全稱 NVIDIA DeepLearning Accelerator，以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中，它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

使用 NVDLA 進行物體檢測

在本文中，將詳細介紹網絡圖形編譯器，是如何提升了專用硬件加速器的性能，並介紹在雲端，如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖，將預訓練的神經網絡模型層中定義的任務，映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件，另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元，可以實現同時調度，或者在流水線配置中實現調度。

NVDLA 架構圖

此外，它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級特性，如芯片上的 SRAM 接口、連接微控制器的能力。

NVDLA 小型配置文件模型

硬件架構是模塊化的，它被設計成可自由伸縮的形態，小到嵌入式物聯網設計，大到使用NVDLA 單元陣列的大型數據中心，都能完美適用。

編譯器可以根據多項因素進行調優：NVDLA 硬件配置、系統的 CPU 和內存控制配置，以及應用程序的自定義神經網絡用例等等。

NVDLA 是如何提升性能的

在大型的 NVDLA 設計上，層融合和管道調度之類的編譯器優化，表現性能良好，可廣泛應用於多種神經網絡架構，能提供高達 3 倍的性能效益。

這種優化後的靈活性，是實現跨大型網絡模型（如ResNet-50）和小型網絡模型（如 MobileNet）的性能優化的重要原因。

對於較小的 NVDLA 設計，編譯器優化(如 Memory tiling )也是提高性能效率的關鍵。

Memory tiling 設計能在權重和激活數據之間，平衡芯片上緩衝區的使用，從而最小化芯片外存儲的流量和能耗。

用戶還可以自由地創建定製的圖層，並根據自己的特殊用例進行調優，或者使用最新的算法進行實驗。

為了方便對比，可以根據下面的性能數字，評估 NVDLA 大型模型的預期性能。測量數據來自 Jetson AGX Xavier 開發工具上的一個 NVDLA 核心捕獲。

使用 RISC-V 和 FireSim 在雲端設計

通過這個編譯器版本，NVDLA 用戶可以訪問集成、增添和探索 NVDLA 平臺所需的軟件和硬件源代碼。

如果想要嘗試入手，建議的方式是直接使用 NVDLA 上的 YOLOv3 ，以及雲端的 RISC-V 和 FireSim 進行物體檢測。

在使用 FireSim- NVADLA 時，可按照 FireSim 的說明操作，直到能夠運行單節點模擬為止。

使用指南：http://docs.fires.im/en/1.5.0/index.html

按照教程中的步驟操作，在「設置FireSim Repo」一節中，驗證是否正使用 FireSim -NVADLA 存儲庫，具體的操作代碼如下:

1 git clone https://github.com/CSL-KU/firesim-nvdla
2 cd firesim-nvdla
3 ./build-setup.sh fast

使用 NVDLA 運行單節點模擬之後，按照 NVDLA 教程中的步驟可以立即啟動 YOLOv3。（地址：https://github.com/CSL-KU/firesim-nvdla#running-yolov3-on-nvdla）

這套編譯器已經被 SiFive 這類初創公司所使用，並從中得到了受益。

原創：HyperAI超神經
關鍵詞：英偉達深度學習加速器

2017 年，英偉達發佈了深度學習加速器 NVDLA，全稱 NVIDIA DeepLearning Accelerator，以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中，它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

使用 NVDLA 進行物體檢測

在本文中，將詳細介紹網絡圖形編譯器，是如何提升了專用硬件加速器的性能，並介紹在雲端，如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖，將預訓練的神經網絡模型層中定義的任務，映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件，另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元，可以實現同時調度，或者在流水線配置中實現調度。

NVDLA 架構圖

此外，它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級特性，如芯片上的 SRAM 接口、連接微控制器的能力。

NVDLA 小型配置文件模型

硬件架構是模塊化的，它被設計成可自由伸縮的形態，小到嵌入式物聯網設計，大到使用NVDLA 單元陣列的大型數據中心，都能完美適用。

編譯器可以根據多項因素進行調優：NVDLA 硬件配置、系統的 CPU 和內存控制配置，以及應用程序的自定義神經網絡用例等等。

NVDLA 是如何提升性能的

在大型的 NVDLA 設計上，層融合和管道調度之類的編譯器優化，表現性能良好，可廣泛應用於多種神經網絡架構，能提供高達 3 倍的性能效益。

這種優化後的靈活性，是實現跨大型網絡模型（如ResNet-50）和小型網絡模型（如 MobileNet）的性能優化的重要原因。

對於較小的 NVDLA 設計，編譯器優化(如 Memory tiling )也是提高性能效率的關鍵。

Memory tiling 設計能在權重和激活數據之間，平衡芯片上緩衝區的使用，從而最小化芯片外存儲的流量和能耗。

用戶還可以自由地創建定製的圖層，並根據自己的特殊用例進行調優，或者使用最新的算法進行實驗。

為了方便對比，可以根據下面的性能數字，評估 NVDLA 大型模型的預期性能。測量數據來自 Jetson AGX Xavier 開發工具上的一個 NVDLA 核心捕獲。

使用 RISC-V 和 FireSim 在雲端設計

通過這個編譯器版本，NVDLA 用戶可以訪問集成、增添和探索 NVDLA 平臺所需的軟件和硬件源代碼。

如果想要嘗試入手，建議的方式是直接使用 NVDLA 上的 YOLOv3 ，以及雲端的 RISC-V 和 FireSim 進行物體檢測。

在使用 FireSim- NVADLA 時，可按照 FireSim 的說明操作，直到能夠運行單節點模擬為止。

使用指南：http://docs.fires.im/en/1.5.0/index.html

按照教程中的步驟操作，在「設置FireSim Repo」一節中，驗證是否正使用 FireSim -NVADLA 存儲庫，具體的操作代碼如下:

1 git clone https://github.com/CSL-KU/firesim-nvdla
2 cd firesim-nvdla
3 ./build-setup.sh fast

使用 NVDLA 運行單節點模擬之後，按照 NVDLA 教程中的步驟可以立即啟動 YOLOv3。（地址：https://github.com/CSL-KU/firesim-nvdla#running-yolov3-on-nvdla）

這套編譯器已經被 SiFive 這類初創公司所使用，並從中得到了受益。

SiFive 使用 NVDLA 進行深度學習推理

據悉，SiFive 在一年前首次在自己的平臺上開始使用 NVDLA，而經過了性能優化的開源 NVDLA 編譯器，能夠創建特定領域的優化 SoC 設計，為 IoT Edge 中的 AI 現代計算需求做足準備。

項目開源地址：

https://github.com/nvdla/sw/releases/tag/v1.2.0-OC

內容來源：

Nvidia Developer Blog

原創：HyperAI超神經
關鍵詞：英偉達深度學習加速器

2017 年，英偉達發佈了深度學習加速器 NVDLA，全稱 NVIDIA DeepLearning Accelerator，以推動在定製硬件設計中採用高效的 AI 推理。

在英偉達的開發套件 Jetson AGX Xavier 中，它能為 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

使用 NVDLA 進行物體檢測

在本文中，將詳細介紹網絡圖形編譯器，是如何提升了專用硬件加速器的性能，並介紹在雲端，如何構建和運行自定義 NVDLA 軟硬件設計。

NVDLA 編譯器的性能和效率

編譯器是 NVDLA 軟件棧的關鍵組件。它能生成優化的執行圖，將預訓練的神經網絡模型層中定義的任務，映射到 NVDLA 中的各個執行單元。

一方面能最大限度地利用計算硬件，另一方面儘可能地減少數據移動。

NVDLA 核心硬件有六個專門的硬件單元，可以實現同時調度，或者在流水線配置中實現調度。

NVDLA 架構圖

此外，它還具有小型和大型硬件配置文件。其中大型配置文件含有一些高級特性，如芯片上的 SRAM 接口、連接微控制器的能力。

NVDLA 小型配置文件模型

硬件架構是模塊化的，它被設計成可自由伸縮的形態，小到嵌入式物聯網設計，大到使用NVDLA 單元陣列的大型數據中心，都能完美適用。

編譯器可以根據多項因素進行調優：NVDLA 硬件配置、系統的 CPU 和內存控制配置，以及應用程序的自定義神經網絡用例等等。

NVDLA 是如何提升性能的

在大型的 NVDLA 設計上，層融合和管道調度之類的編譯器優化，表現性能良好，可廣泛應用於多種神經網絡架構，能提供高達 3 倍的性能效益。

這種優化後的靈活性，是實現跨大型網絡模型（如ResNet-50）和小型網絡模型（如 MobileNet）的性能優化的重要原因。

對於較小的 NVDLA 設計，編譯器優化(如 Memory tiling )也是提高性能效率的關鍵。

Memory tiling 設計能在權重和激活數據之間，平衡芯片上緩衝區的使用，從而最小化芯片外存儲的流量和能耗。

用戶還可以自由地創建定製的圖層，並根據自己的特殊用例進行調優，或者使用最新的算法進行實驗。

為了方便對比，可以根據下面的性能數字，評估 NVDLA 大型模型的預期性能。測量數據來自 Jetson AGX Xavier 開發工具上的一個 NVDLA 核心捕獲。

使用 RISC-V 和 FireSim 在雲端設計

通過這個編譯器版本，NVDLA 用戶可以訪問集成、增添和探索 NVDLA 平臺所需的軟件和硬件源代碼。

如果想要嘗試入手，建議的方式是直接使用 NVDLA 上的 YOLOv3 ，以及雲端的 RISC-V 和 FireSim 進行物體檢測。

在使用 FireSim- NVADLA 時，可按照 FireSim 的說明操作，直到能夠運行單節點模擬為止。

使用指南：http://docs.fires.im/en/1.5.0/index.html

按照教程中的步驟操作，在「設置FireSim Repo」一節中，驗證是否正使用 FireSim -NVADLA 存儲庫，具體的操作代碼如下:

1 git clone https://github.com/CSL-KU/firesim-nvdla
2 cd firesim-nvdla
3 ./build-setup.sh fast

使用 NVDLA 運行單節點模擬之後，按照 NVDLA 教程中的步驟可以立即啟動 YOLOv3。（地址：https://github.com/CSL-KU/firesim-nvdla#running-yolov3-on-nvdla）

這套編譯器已經被 SiFive 這類初創公司所使用，並從中得到了受益。

SiFive 使用 NVDLA 進行深度學習推理

項目開源地址：

https://github.com/nvdla/sw/releases/tag/v1.2.0-OC

內容來源：

Nvidia Developer Blog

'全球首個軟硬件推理平臺：NVDLA 編譯器正式開源'

NVDLA 編譯器的性能和效率

NVDLA 編譯器的性能和效率

NVDLA 編譯器的性能和效率

NVDLA 是如何提升性能的

NVDLA 編譯器的性能和效率

NVDLA 是如何提升性能的

NVDLA 編譯器的性能和效率

NVDLA 是如何提升性能的

NVDLA 編譯器的性能和效率

NVDLA 是如何提升性能的

相關推薦