硬件加速器为人工智能应用服务
硬件加速器為人工智能應用服務
Hardware accelerators serve AI applications
硬件加速器(Hardware accelerators)是用于執行特定任務(如對對象進行分類)的專用設備,越來越多地嵌入到為各種人工智能應用服務的片上系統(SoC)中。有助于創建緊密集成的定制處理器,提供更低的功耗、更低的延遲、數據重用和數據局部性。
首先,有必要對人工智能算法進行硬件加速。人工智能加速器是專門為加速人工智能任務而設計的;以傳統處理器無法實現的方式執行特定任務。
此外,沒有一個處理器能夠滿足人工智能應用的多樣化需求,這里,集成到人工智能芯片中的硬件加速器為特定的工作負載提供了性能、電源效率和延遲優勢。這就是為什么基于人工智能加速器的定制架構開始挑戰人工智能應用程序中cpu和gpu的使用。
人工智能芯片設計者必須決定加速什么,如何加速,以及如何將這些功能與神經網絡互連。下面是一個關鍵行業趨勢的快照,這些趨勢定義了硬件加速器在不斷發展的人工智能工作負載中的使用。不可避免的是,開始于可集成到各種人工智能芯片和卡上的人工智能加速器。
AI accelerator IPs
AI加速器IPs
硬件加速器廣泛應用于人工智能芯片中,用于分割和加速數據密集型任務,如計算機視覺和深度學習,用于訓練和推理應用。這些神經網絡加速了神經網絡的運轉。
Gyrfalcon Technology Inc.(GTI)設計AI芯片,并通過IP許可模式為定制SoC設計提供AI加速器。總部位于加州米爾皮塔斯的人工智能新貴分別為邊緣和云應用提供了Lightspeeur2801和2803人工智能加速器。
值得注意的是,Gyrfalcon還圍繞這些硬件加速器開發了AI芯片,這使得這些AI加速器IPs硅得到了驗證。該公司用于edge設計的2801 AI芯片每瓦特(TOPS/W)每秒可執行9.3 tera操作,而其用于數據中心應用的2803 AI芯片可提供24 TOPS/W。
除了IP開發工具和技術文檔外,Gyrfalcon還為AI設計師提供了用于模型創建、芯片評估和概念驗證設計的USB3.0軟件狗。許可證持有者可以在Windows和Linux個人電腦上使用這些軟件狗,也可以在像Raspberry Pi這樣的硬件開發工具包上使用這些軟件狗。
Hardware architecture
硬件體系結構
人工智能加速器的基本前提是處理算法的速度比以往任何時候都要快,同時盡可能少用電。在邊緣、數據中心或兩者之間的某個地方執行加速。AI加速器可以在ASIC、GPU、FPGA、DSP或這些設備的混合版本中執行這些任務。
這就不可避免地導致了一些硬件加速器架構,針對機器學習(ML)、深度學習、自然語言處理和其人工智能工作負載進行了優化。例如,一些ASIC被設計為運行在深度神經網絡(DNNs)上,而DNNs又可以在GPU或其ASIC上進行訓練。
人工智能加速器架構的關鍵在于人工智能任務可以大規模并行。此外,人工智能加速器的設計與多核實現交織在一起,這突出了人工智能加速器體系結構的關鍵重要性。
下一步,人工智能的設計通過增加越來越多的專門用來提高神經網絡效率的加速器,將算法分割得越來越細。用例越具體,就越有機會細粒度地使用多種類型的硬件加速器。
這里,值得一提的是,除了集成到定制芯片中的人工智能加速器之外,加速卡也被用于提高云服務器和內部數據中心的性能和減少延遲。例如,與cpu相比,Xilinx公司的Alveo加速卡可以從根本上加速數據庫搜索、視頻處理和數據分析(圖1)。
圖1:Alveo U250加速卡與高端CPU相比,實時推理吞吐量提高了20倍,與固定功能加速器(如高端GPU)相比,亞2毫秒延遲降低了4倍以上。
可編程性
在人工智能設計中有很多動態變化,因此,軟件算法的變化比人工智能芯片的設計和制造要快。強調了硬件加速器面臨的一個關鍵挑戰,在這種情況下,往往會變成固定功能的設備。
因此,加速器中必須有某種可編程性,使設計者能夠適應不斷變化的需求。可編程特性帶來的設計靈活性也允許設計人員處理各種各樣的人工智能工作負載和神經網絡拓撲。
英特爾公司(intelcorp.)以約20億美元的價格收購了以色列一家可編程深度學習加速器(programmableddeeplearningaccelerators)的以色列開發商,從而回應了人工智能設計可編程性的呼吁。Habana的Gaudi處理器用于訓練,Goya處理器用于推理,提供了一個易于編程的開發環境(圖2)。
圖2:這是開發平臺和工具如何使用Gaudi訓練加速器加速AI芯片設計。
AI在邊緣
現在很明顯,人工智能推理的市場比人工智能訓練要大得多。這就是為什么業界正在見證各種各樣的芯片被優化,以適應從訓練到推理的各種人工智能工作負載。
這將微控制器(MCU)帶入人工智能設計領域,而人工智能設計通常與強大的SOC相關聯。這些MCU整合了人工智能加速器,為資源受限的工業和物聯網邊緣設備提供服務,如目標檢測、面部和手勢識別、自然語言處理和預測性維護。
以Arm的Ethos U-55 microNPU ML加速器為例,NXP半導體公司正在將其集成到基于Cortex-M的微控制器、交叉MCU和應用處理器中的實時子系統中。Ethos U-55加速器與Cortex-M核心協同工作,以實現較小的占地面積。先進的壓縮技術節省了能量,并顯著減少了ML模型的大小,從而使以前只在較大系統上運行的神經網絡能夠執行。
NXP的eiqml開發環境為AI設計者提供了一個開源推理引擎的選擇。根據具體的應用需求,這些AI加速器可以被集成到各種計算元素中:cpu、gpu、dsp和npu。
總結
以上是生活随笔為你收集整理的硬件加速器为人工智能应用服务的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 处理器解决物联网和人工智能的融合
- 下一篇: 堆叠式传感器架构带来先进的视觉功能