电阻存储器为edge-AI提供了仿生架构
電阻存儲器為edge-AI提供了仿生架構
Resistive memories enable bio-inspired architectures for edge AI
近年來,腦啟發計算領域的研究活動取得了很大的發展勢頭。其主要原因是人試圖超越傳統Von Neumann體系結構的局限性,這種局限性越來越受到存儲器邏輯通信帶寬和延遲的限制。在神經形態結構中,存儲是分布的,并且可以與邏輯共同定位。新的電阻存儲器技術可以很容易地提供這種可能性,因為能夠集成在CMOS工藝的互連層中。
在傳統的人工智能技術被廣泛應用于集成電路的實現中,受到了廣泛的關注。雖然先進的標準CMOS技術已經被用于開發GPU和特定的電路加速器,但還沒有真正推動使用任何“生物靈感”硬件。新出現的電阻存儲器件(rram)可以通過施加相對較低的偏壓來調節電導,從而在納米尺度上模擬生物上看似合理的突觸行為,但由于這項技術的(感知)不夠成熟,所開辟的途徑僅限于研究小組。
然而,這些新設備可以解決將人工智能大規模部署到消費和工業產品中所面臨的一個主要問題:能源效率。如果人工智能的應用越來越廣泛,將所有數據傳輸到云/服務器系統進行分析的能源開銷將很快達到人工智能經濟可行性的極限。此外,對于自動車輛和工業控制等實時系統,如果連接到5G基礎設施以處理數據的服務器集中在定義明確的區域,而不是分布在基礎設施中,那么延遲仍然是一個問題。出于這些原因,在歐洲,出于隱私考慮,具有邊緣/使用點的人工智能系統將變得越來越重要,高效節能,并可能逐步提高本地學習能力。
嵌入式人工智能系統非常適合處理需要實時響應的數據,并且在能源是主要問題的情況下。tinyML倡議的成功證明了人對此類系統的興趣正在增長。在處理由麥克風、激光雷達、超聲波等傳感器生成的稀疏、時域數據流時,該領域的生物啟發(即,存儲元件也充當互連和計算元件)方法具有額外的優勢。然后,這些系統將能夠在模擬域中執行大部分操作,通過避免耗電、不必要的多個模擬到數字轉換,以及使用非時鐘、數據驅動的體系結構來簡化數據流。時鐘的缺失和僅在信號脈沖期間在存儲器元件中的耗散導致在沒有輸入的情況下極低的功耗(因此其適用于稀疏信號),并且可能不需要特定的睡眠模式來獲得電池供電的操作狀態。此外,非易失性只需要在系統首次通電或最終更新時進行參數設置,而不需要在每次通電時從外部源進行傳輸。
然而,新電阻存儲器的使用不僅限于這種“邊緣”或“生物靈感”的應用,而且也有利于在神經加速器中執行慢非易失性緩存/快速大容量存儲中間存儲器電平功能的傳統全數字時鐘系統。在這種情況下,這樣做的好處是減少了快速DRAM和SRAM緩存區域,同時還減少了訪問大容量存儲的延遲。
Hardware Platforms for bio-inspired computing
生物啟發計算的硬件平臺
從技術角度來看,rram是一個很好的神經形態應用的候選,因為具有CMOS兼容性、高擴展性、強持久性和良好的保留特性。然而,定義大規模共集成混合神經形態系統(具有電阻存儲突觸的CMOS神經元)的實際實現策略和有用的應用仍然是一個困難的挑戰。
電阻RAM(RRAM)器件如相變存儲器(PCM)、導電橋RAM(CBRAM)和氧化物RAM(OxRAM)被提出來模擬突觸功能的生物學特性,這些特性對于實現神經形態硬件是必不可少的。在不同類型的模擬突觸特征中,尖峰時間依賴性可塑性(STDP)是最常用的方法之一,但肯定不是唯一的可能性,有些可能在實際應用中更有用。
實現這些想法并驗證方法的電路示例是SPIRIT,ay IEDM 2019提出。所實現的SNN拓撲是一個單層的、全連通的拓撲,其目標是在MNIST數據庫上執行推理任務,每個類有10個輸出神經元。為了減少突觸的數量,圖像縮小到12×12像素(每個神經元有144個突觸)。突觸是用單級細胞(SLC)rram實現的,即只考慮低電阻和高電阻水平。結構為1T-1R型,每個單元有一個接入晶體管。多個電池并聯連接,以實現不同的重量。在該學習框架上進行的突觸量化實驗表明,在-4到+4之間的整數值是分類精度和RRAM數之間的一個很好的折衷。由于目標是獲得加權電流,因此必須使用4 rram作為正權重。對于負權重,符號位也可以使用rram進行編碼:但是,由于需要容錯的三重冗余,因此最好使用4個附加rram來實現負權重。
“整合與激發(IF)”模擬神經元的設計是由數學等價性的需要指導的,tanh激活函數用于有監督的離線學習。其特征如下:(1)突觸重量等于±4的刺激必須產生一個尖峰;(2)神經元必須產生正負尖峰;(3)必須有一個不應期,在此期間不能發出尖峰,但必須繼續整合。神經元是圍繞一個MOM 200fF電容器構建的。兩個比較器用于比較其電壓電平與正負閾值。由于RRAM必須在其終端之間的電壓降限制為100mV的情況下讀取,為了防止將設備設置為LRS,獲得的電流不能被神經元直接積分,而是由電流注入器復制。評估了編程條件的影響,并使用適當的編程條件來確保足夠大的內存窗口。放松機制確實出現在很短的時間尺度上(不到一個小時)。因此,分類精度不會隨著時間的推移而降低。讀取穩定性也得到了驗證,高達800米的峰值發送到電路。
對MNIST數據庫的10K測試圖像的分類準確率為84%。必須將該值與從88%的理想模擬中獲得的精度進行比較,該精度受簡單網絡拓撲結構(1層10個輸出神經元)的限制。每個突觸事件的能量消耗相當于3.6pj。當考慮到電路邏輯和SPI接口時,達到了180pj(可以通過優化通信協議來降低)。測量表明,圖像分類平均需要136個輸入峰值(對于ΔS=10):這小于每個輸入累積的一個峰值,與130nm節點中等效的形式編碼MAC操作相比,能量增益是5倍。能量增益來自于(1)基運算的輕巧性(累加,而不是經典編碼中的乘法累加);(2)尖峰編碼導致的活動稀疏性。稀疏效益隨層數的增加而增加。
這個小的演示程序展示了如何在與傳統的嵌入式方法相同的性能水平上實現性能水平,但功耗卻大大降低。事實上,SNN演示中使用的速率碼使得這種實現與經典編碼的實現等效:從經典域到峰值域的轉換不會導致任何精度損失。然而,從這個概念證明中使用的簡單拓撲結構來看,與使用更大網絡和更多層的最先進深度學習模型相比,單層感知器解釋的分類精度略低。為了克服這一差異,目前正在實施一種更為復雜的拓撲結構(MobileNet類),分類精度將相應提高,同時具有相同的能量效益。
同樣的方法將擴展到嵌入麥克風或激光雷達的電路中,以本地和實時地分析數據流,從而避免了通過網絡傳輸的需要。速率編碼和時間編碼都可以根據信號的信息量來優化網絡。最初,學習將集中進行,只有推理集成到系統中,但在以后的幾代人中會引入一定程度的增量學習。
另一種利用RRAM特性有益于嵌入式AI產品的方法是使用基于RRAM的crossbar陣列的模擬架構。與傳統的數字實現相比,可以提供更密集的乘法器-累加器(MAC)功能的實現,在推理和學習電路中都是核心。如果進入時域并消除時鐘的進一步步驟被采取,那么超越當前技術水平的緊湊型低功耗系統是可以實現的。雖然這種方法非常有前途,學術界也進行了大量的研究,但仍然沒有被業界廣泛接受,這表明了設計、驗證、描述和驗證模擬異步設計的困難,以及擴展模擬解決方案的困難。在看來,所有這些障礙都是可以克服的,有利于極為節能的解決方案。
這些存儲的部分感知困難來自于觀察到的可變性,但那是實驗條件的反射。觀察到在300毫米范圍內操作和集成過程更加成熟時,分布會更好,因此假設在工業化過程中可以解決變異性問題。設計工具也在出現,更精確的模型也逐漸可用。溫度變化當然會產生影響,但這種計算的統計性質及其在推斷階段對某種程度的參數變化的內在穩健性,使其最終影響遠不如社區習慣的傳統模擬設計相關。模擬縱橫制方法的優點之一是,當應用“零”數據時,自動沒有電流。然而,當應用“一”數據時,存儲的“零”值存在泄漏電流貢獻,這會限制橫桿的合理尺寸,并推動研究朝著電阻水平的最佳值方向發展。
有些問題更為根本。第一個問題是,功耗效率和高并行度來自于時間復用(操作頻率)與面積的權衡:網絡大小(問題或類數大小)的限制是什么?這種權衡是有利的,如何依賴于實現節點?另一個是這些存儲的循環性。雖然對于推理階段來說已經足夠了,并且交叉桿的編程可以在初始化階段以可接受的開銷完成,但是由于過度的寫入負載,使用經典反向傳播方案和迭代次數的片上學習是不可能的。然而,使用其學習方法的非常有希望的途徑正在被尋求,并有望在未來幾年內提供有效的解決方案。
在引入這種類型的電路之前,像RRAM和3D集成這樣的技術可以在傳統的實現中使用,從而以更小的功耗預算和更小的外形因數提供已經存在的解決方案。用于高度定制應用的FPGA實現、運行在mcu或cpu上的純軟件實現或專用的高度并行的多核/加速器(類似或類似于gpu的通用應用)是當今的主流。所有這些芯片還可以受益于本地非易失性存儲器的可用性,這可能導致FPGA更緊湊、更優化的MCU/CPU和多核/加速器芯片的存儲層次。特別是,使用單片3D集成的專用版本,在模擬神經元平面之間插入RRAM平面,可以產生更緊湊、功耗更低的系統。
在歐洲H2020計劃NeuRAM3的框架下,研究了這種方法,領導了一個著名的歐盟研發機構多學科小組,致力于研究先進器件技術、電路結構和算法之間的最佳匹配,以制造神經形態芯片。在該項目的許多結果中,如下圖所示,可以看到在CoolCube 3D單片工藝中制造的OxRAM示例,該工藝連接到頂部和底部CMOS層。向前看,這種技術可以用于在專門用于人工智能的復雜CMOS電路結構中集成非常密集的陣列。
圖. CoolCube 3D單片集成OxRam內部互連
頂部和底部的CMOS層為密集多層神經網絡開辟了道路。
3DTSV和3D-by-Cu鍵合也有希望具有緊湊的神經形態系統,包括高度集成的體系結構中的各種元件,其中根據應用優化分區,或者嵌入AI元件與成像儀或其傳感或執行元件緊密耦合。
結論
本文綜述了RRAM在仿生計算系統中的作用,并討論了一些有希望的結果和概念。
總結
以上是生活随笔為你收集整理的电阻存储器为edge-AI提供了仿生架构的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么edge AI是一个无需大脑的人
- 下一篇: 用小神经网络和光谱仪优化关键词识别