02-缓存一致性---实现big.LITTLE、GPU 计算和企业应用
引流關鍵詞: bit.LITTLE,GPU,CCI,cache,緩存一致性,DSU
快速鏈接:
.
👉👉👉 個人博客筆記導讀目錄(全部) 👈👈👈
相關鏈接:
01-緩存一致性—基礎知識
02-緩存一致性—實現big.LITTLE、GPU 計算和企業應用
03-緩存一致性—提高性能和引入CoreLink CCI-500
目錄
- 1、實現硬件一致性
- 2、移動應用程序:big.LITTLE 處理
- 3、移動應用:GPU 計算
- 4、企業應用:網絡和服務器
- 5、CoreLink CCI-400 Cache Coherent Interconnect
- 6、總結
- 7、參考
1、實現硬件一致性
ARM 的第一個AMBA 4 ACE 實現包括 ARM CoreLink CCI-400 緩存一致性互連、ARM Cortex-A15和Cortex-A7處理器。這些產品于 2011 年首次發布給我們的芯片合作伙伴,我們已經看到第一批ARM big.LITTLE產品于 2013 年上市。
迄今為止,CoreLink CCI-400 已獲得超過 24 個合作伙伴的許可,用于移動和企業應用程序,例如網絡或微服務器。CoreLink CCI-400 最多支持兩個 AMBA 4 ACE 處理器集群,允許最多八個處理器內核查看相同的內存視圖并運行 SMP 操作系統。
2、移動應用程序:big.LITTLE 處理
CoreLink CCI-400 支持所有 big.LITTLE 組合,包括 Cortex-A15 + Cortex-A7、Cortex-A17 + Cortex-A7 和 Cortex-A57 + Cortex-53,完全支持 ARMv8-A,包括 64 位。big.LITTLE 處理是來自 ARM 的一項功率優化技術,其中高性能“大”內核和效率調整的“小”內核與軟件相結合,以在正確的時間將應用程序動態轉換到正確的處理器。
硬件一致性是 big.LITTLE 處理的基礎,因為它允許 big 和 LITTLE 處理器集群查看相同的內存視圖并運行相同的操作系統。big.LITTLE 軟件(例如 Global Task Scheduling (GTS))在給定時間將任務放置在適當的核心上。對于中等工作負載,所有處理都可以在 LITTLE 核心上執行,而大核心則關閉。如果工作負載需要更高的性能,則會啟動大內核并遷移任務,而其他中等工作負載繼續在小內核上運行。big.LITTLE GTS 允許 SoC 上的所有內核同時運行,例如具有四個 big 和四個 LITTLE 的設備將作為一個八核處理器出現在操作系統中。
3、移動應用:GPU 計算
使用OpenCL 1.1 Full Profile 和 Google RenderScript 計算等 API 進行 GPU 計算,釋放 CPU 和 GPU 的綜合處理能力。
在ARM Mali -T600系列和Mali-T760 GPU支持 AMBA 4 ACE-Lite`與CPU IO一致性。這意味著 GPU 可以直接從 CPU 緩存中讀取任何共享數據,并且寫入共享內存將自動使 CPU 緩存中的相關行無效。硬件一致性降低了 CPU 和 GPU 之間共享數據的成本,并允許更緊密的耦合。
GPU 計算應用程序包括:計算攝影、計算機視覺、針對超高清分辨率(如 HEVC 和 VP9)的現代多媒體編解碼器、復雜圖像處理和手勢識別。
ARM 是異構系統架構 (HSA) 基金會的創始成員之一。該基金會旨在提供一種免版稅規范,以便更輕松地利用 SoC 中的異構 CPU、GPU 和 DSP 硬件。這包括共享虛擬內存和完全一致 GPU 的路線圖。這些技術將進一步降低處理引擎之間共享數據的成本。
4、企業應用:網絡和服務器
網絡和服務器等企業應用程序具有高性能串行接口,例如 PCI Express、串行 ATA 和以太網。在大多數應用程序中,所有這些數據都將被標記為共享,因為在許多情況下 CPU 需要從這些串行接口訪問數據。下圖顯示了一個簡化的示例系統。
CCI-400 Cache Coherent Interconnect 被設計成一系列小型企業應用,包括住宅網關、安全設備、WLAN 企業接入點、工業通信和微型服務器。這些應用程序使用一系列 ARM 處理器,具體取決于從 Cortex-A7 到 Cortex-A57 的性能要求,最多總共有 8 個內核,沒有 L3 緩存。
ARM 擁有一系列互連產品,可在一系列內核數量上擴展性能:
- CoreLink CCI-400 Cache Coherent Interconnect
最多 2 個集群,8 個內核 - CoreLink CCN-504 Cache Coherent Network
最多 4 個集群,16 個內核
集成 L3 緩存,2 通道 72 位 DDR - CoreLink CCN-508 Cache Coherent Network
多達 8 個集群,32 個內核
集成 L3 緩存,4 通道 72 位 DDR
5、CoreLink CCI-400 Cache Coherent Interconnect
下表詳細介紹了 CoreLink CCI-400 的主要特性:
兩個最常見的問題是:它有多大,運行速度有多快?CoreLink CCI-400 有許多配置選項,包括寄存器階段和事務跟蹤器大小,允許針對給定應用優化互連區域和性能。在低端,門帳戶下降到 10 萬門。在時鐘速度方面,我們的基準實施試驗以 533MHz 的 CMOS 32LP 工藝開始,但我們看到許多合作伙伴在更小的硅幾何結構上以更高的速度實施,并使用更快的實施技術。
下圖展示了帶有 Cortex-A50 系列處理器、CoreLink MMU-500 系統 MMU 和一系列 CoreLink 400 系統 IP 的示例移動應用處理器。
在該系統中,Cortex-A57 和 Cortex-A53 提供 big.LITTLE 處理器組合,并通過 AMBA 4 ACE 連接到 CCI-400,以提供完整的硬件一致性。Mali-T628 和 IO Coherent 主站通過 AMBA 4 ACE-Lite 接口連接到 CCI-400。如第一篇博客所述,這種 IO 一致性允許 IO 一致性代理從處理器緩存中讀取數據。
系統中的其他組件包括:
- MMU-500 系統 MMU - 提供第 1 階段和/或第 2 階段地址轉換,以支持系統組件的內存可視化。
- TZC-400 TrustZone 地址空間控制器- 對內存或外圍設備的事務執行安全檢查,并允許將內存區域標記為安全或受保護。
- DMC-400 動態內存控制器- 提供動態內存調度和與外部 DDR2/3 或 LPDDR2 內存的接口。
- NIC-400 網絡互連- 為 AMBA 4 AXI4、AMBA 3 AXI3、AHB-Lite 和 APB 組件提供完全可配置、分層、低延遲的連接。
6、總結
本文介紹了硬件一致性和移動應用程序的實現,例如 big.LITTLE 處理和企業。所有這些應用程序的核心是像 CoreLink CCI-400 這樣的緩存一致性互連。作為 IP 提供商,ARM 處于獨特的地位,可以提供 Cortex 處理器、Mali 圖形和 CoreLink 緩存相干互連以及工具和物理 IP 的完整解決方案
7、參考
Extended System Coherency: Part 2 - Implementation, big.LITTLE, GPU Compute and Enterprise
總結
以上是生活随笔為你收集整理的02-缓存一致性---实现big.LITTLE、GPU 计算和企业应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 01-缓存一致性---基础知识
- 下一篇: 03-缓存一致性---提高性能和引入Co