03-缓存一致性---提高性能和引入CoreLink CCI-500
引流關鍵詞: bit.LITTLE,GPU,CCI,cache,緩存一致性,DSU
快速鏈接:
.
👉👉👉 個人博客筆記導讀目錄(全部) 👈👈👈
相關鏈接:
01-緩存一致性—基礎知識
02-緩存一致性—實現big.LITTLE、GPU 計算和企業應用
03-緩存一致性—提高性能和引入CoreLink CCI-500
目錄
- 1、硬件一致性和窺探
- 2、Snoop Filter的介紹
- 3、電源&功耗優勢
- 4、性能優勢
- 5、高度可擴展的解決方案
- 6、內存帶寬需求增加
- 7、CoreLink CCI-500 提供更高的系統帶寬
- 8、Part of a Complete System
- 9、總結
- 10、參考
1、硬件一致性和窺探
緩存一致性的最簡單實現是向所有處理器緩存廣播監聽以按需定位共享數據。當緩存收到監聽請求時,它會執行標簽數組查找以確定是否有數據,并相應地發送回復。
例如,在上圖中,我們可以看到箭頭顯示了 big 和 LITTLE 處理器集群之間的監聽,以及從 IO 接口到兩個處理器集群的監聽。訪問任何共享數據都需要這些窺探,以確保它們的緩存是硬件緩存一致的。換句話說,要確保所有處理器和 IO 看到相同的內存視圖。
對于大多數工作負載,由于偵聽請求而執行的大多數查找將丟失,即它們無法在緩存中找到所請求數據的副本。這意味著許多偵聽引起的查找可能是對帶寬和能量的不必要使用。當然,我們已經消除了軟件緩存維護的高得多的成本,但也許我們可以進一步優化它?
2、Snoop Filter的介紹
這就是窺探過濾器的用武之地。通過將窺探過濾器集成到互連中,我們可以維護處理器緩存內容的目錄,并消除廣播窺探的需要。
監聽過濾器的原理如下:
- 所有緩存共享內存的標簽都存儲在互連的目錄中(snoop filter)
- 所有共享訪問都將在此監聽過濾器中查找,該過濾器有兩種可能的響應:
HIT –> 數據在芯片上,提供了一個向量來指向包含數據的集群
MISS –> 從外部存儲器中取出
3、電源&功耗優勢
由于集成了監聽濾波器,CoreLink CCI-500 與上一代互連相比,提供了內存系統節能。這種節能的驅動因素是執行一次中央監聽查找而不是多次查找,并減少每次命中緩存的監聽對外部存儲器的訪問。此外,它可以使處理器集群在監聽過濾器響應一致性請求的同時更長時間地保持低功耗睡眠狀態。
4、性能優勢
移動系統通常包括每個處理器集群的異步時鐘橋,跨這些橋進行通信會導致延遲。相反,與互連監聽過濾器通信更快、更容易、功耗更低。這種減少的監聽延遲有利于處理器性能,基準測試顯示內存密集型處理器工作負載提高了 30%。這有助于使您的移動設備更快、響應更快,并加速視頻編輯等生產力應用程序。
此外,通過減少窺探,系統中的處理器可以將其資源集中在處理性能上,而不是對窺探做出響應。實際上,這意味著用戶將擁有可以提供更高性能同時需要更少功率的 SoC。
5、高度可擴展的解決方案
隨著設計團隊尋求釋放更高的計算性能,許多市場都出現了多集群 SoC 的一致趨勢。擴展到具有更多處理器集群的更高帶寬系統將為監聽過濾器帶來更大的好處。事實上,當將性能擴展到兩個處理器集群之外時,它變得至關重要。CoreLink CCI-500 具有高度可擴展性,支持 1 到 4 個 ACE 接口(例如 1 到 4 個處理器集群)的配置。雖然雙集群 big.LITTLE 仍將是移動領域的標準,但互連可以支持未來擁有更多處理器或完全一致的 GPU 和加速器。CoreLink CCI-500 通過分布式虛擬內存 (DVM) 消息傳輸,完全支持處理器和共享虛擬內存之間完全硬件一致性的異構系統架構 (HSA) 概念。CoreLink CCI-400 自 2011 年以來就支持這一點,CoreLink CCI-500 對此進行了改進,具有更高的可擴展性和可配置性。
基礎設施網絡和服務器應用程序已經在處理器和 IO 之間擁有很高比例的共享內存訪問;ARM CoreLink CCN Cache Coherent Network 系列產品已經包含集成的監聽過濾器,以確保這些應用程序所期望的高性能和低延遲。CoreLink CCN 系列仍然是最高性能的一致性互連 IP,支持多達 12 個集群(48 個內核)、集成的 3 級系統緩存和超過 1GHz 的時鐘速度。CoreLink CCI-500 針對移動和其他功率受限應用所需的性能和功率包絡進行了優化。互補的CoreLink NIC-400 網絡互連 提供 IO 相干請求者和成百上千的外設和接口所需的低功耗、低延遲“SoC 的其余部分”連接。
沒有“一刀切”的互連,相反,ARM 擁有一系列針對每種應用的需求進行了優化的產品。
6、內存帶寬需求增加
包括智能手機和平板電腦在內的移動設備的性能每一代都在提高;事實上,平板電腦正在取代許多筆記本電腦購買。SoC 性能的一個關鍵維度是內存帶寬,而這受到屏幕分辨率、3D 游戲、多個更高分辨率的攝像頭和超高分辨率外部顯示器的推動。“Retina”級顯示分辨率在移動設備上已經司空見慣,而超高清 4K 已經在高端電視上出現幾年了。我們看到 4K 內容出現在移動設備中只是時間問題。
為了支持這種內存帶寬的增加,SoC 供應商正在尋求最新的低功耗雙倍數據速率 (LPDDR) 動態 RAM (DRAM) 技術。LPDDR3 是 2013 年消費設備中的成熟技術,而 LPDDR4 出現在 2014 年的一些設備中,并將在 2015 年繼續提高其在移動和非移動應用程序中的采用率。每一代 LPDDR 都會降低電壓,但會增加接口頻率,最終結果是:更高的帶寬和更低的每比特能量。單個 32 位 LPDDR4-3200 接口將提供 12.8GB/s,這是當今高端智能手機的典型特征。
7、CoreLink CCI-500 提供更高的系統帶寬
對于移動設備,32 位內存通道很常見,從用于低成本入門智能手機的單通道,到用于高端智能手機的雙通道,再到用于最高性能平板電腦的四通道。
CoreLink CCI-500 通過支持多達 4 個內存通道,提供高達 CoreLink CCI-400 峰值系統帶寬的兩倍。這可以讓合作伙伴構建支持每秒 34GB 及以上的內存系統,從而實現高性能、高分辨率的平板電腦計算。當然,多個應用程序的可擴展性很重要,CoreLink CCI-500 可以配置 1 到 4 個內存通道以滿足性能要求。
8、Part of a Complete System
ARM CoreLink 互連的最大優勢之一是,它與我們的 Cortex 和 Mali 處理器產品一起開發、驗證和優化,并具有合作伙伴期望的高質量水平。本周的發布還宣布了 Cortex-A72,ARM 的最高性能 Cortex 處理器,Mali-T880 GPU,我們最新的 Mali-V550 視頻和 Mali-DP550 顯示 IP 的高端配置以及用于 16 FinFet 的 Artisan 物理 IP。
為完善 SoC,ARM 還提供了一套完整的系統 IP,包括用于低功耗、低延遲、端到端連接到 SoC 其余部分的 CoreLink NIC-400 網絡互連、用于 IO 虛擬化的 CoreLink MMU-500 系統 MMU 和CoreLink GIC-500 用于管理跨多個集群的中斷,更不用說用于調試和跟蹤的 CoreSight。所有這一切的核心是 CoreLink CCI-500 緩存相干互連。
9、總結
正如我們從企業應用程序中開始的許多其他計算功能中看到的那樣,移動 SoC 正在迅速趕上跨芯片的共享流量。這證明移動計算能力仍在穩步發展,并融合了許多幾年前才引入高級筆記本電腦的功能。移動設備現在本身就是高性能設備這一事實應該不足為奇
10、參考
Extended System Coherency - Part 3 – Increasing Performance and Introducing CoreLink CCI-500
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的03-缓存一致性---提高性能和引入CoreLink CCI-500的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 02-缓存一致性---实现big.LIT
- 下一篇: CoreLink CCI-550的概念介