日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

02-缓存一致性---实现big.LITTLE、GPU 计算和企业应用

發布時間:2025/3/21 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 02-缓存一致性---实现big.LITTLE、GPU 计算和企业应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

引流關鍵詞: bit.LITTLE,GPU,CCI,cache,緩存一致性,DSU

快速鏈接:
.
👉👉👉 個人博客筆記導讀目錄(全部) 👈👈👈


相關鏈接:
01-緩存一致性—基礎知識
02-緩存一致性—實現big.LITTLE、GPU 計算和企業應用
03-緩存一致性—提高性能和引入CoreLink CCI-500

目錄

        • 1、實現硬件一致性
        • 2、移動應用程序:big.LITTLE 處理
        • 3、移動應用:GPU 計算
        • 4、企業應用:網絡和服務器
        • 5、CoreLink CCI-400 Cache Coherent Interconnect
        • 6、總結
        • 7、參考

1、實現硬件一致性

ARM 的第一個AMBA 4 ACE 實現包括 ARM CoreLink CCI-400 緩存一致性互連、ARM Cortex-A15和Cortex-A7處理器。這些產品于 2011 年首次發布給我們的芯片合作伙伴,我們已經看到第一批ARM big.LITTLE產品于 2013 年上市。

迄今為止,CoreLink CCI-400 已獲得超過 24 個合作伙伴的許可,用于移動和企業應用程序,例如網絡或微服務器。CoreLink CCI-400 最多支持兩個 AMBA 4 ACE 處理器集群,允許最多八個處理器內核查看相同的內存視圖并運行 SMP 操作系統。

2、移動應用程序:big.LITTLE 處理

CoreLink CCI-400 支持所有 big.LITTLE 組合,包括 Cortex-A15 + Cortex-A7、Cortex-A17 + Cortex-A7 和 Cortex-A57 + Cortex-53,完全支持 ARMv8-A,包括 64 位。big.LITTLE 處理是來自 ARM 的一項功率優化技術,其中高性能“大”內核和效率調整的“小”內核與軟件相結合,以在正確的時間將應用程序動態轉換到正確的處理器。

硬件一致性是 big.LITTLE 處理的基礎,因為它允許 big 和 LITTLE 處理器集群查看相同的內存視圖并運行相同的操作系統。big.LITTLE 軟件(例如 Global Task Scheduling (GTS))在給定時間將任務放置在適當的核心上。對于中等工作負載,所有處理都可以在 LITTLE 核心上執行,而大核心則關閉。如果工作負載需要更高的性能,則會啟動大內核并遷移任務,而其他中等工作負載繼續在小內核上運行。big.LITTLE GTS 允許 SoC 上的所有內核同時運行,例如具有四個 big 和四個 LITTLE 的設備將作為一個八核處理器出現在操作系統中。

3、移動應用:GPU 計算

使用OpenCL 1.1 Full Profile 和 Google RenderScript 計算等 API 進行 GPU 計算,釋放 CPU 和 GPU 的綜合處理能力。

在ARM Mali -T600系列和Mali-T760 GPU支持 AMBA 4 ACE-Lite`與CPU IO一致性。這意味著 GPU 可以直接從 CPU 緩存中讀取任何共享數據,并且寫入共享內存將自動使 CPU 緩存中的相關行無效。硬件一致性降低了 CPU 和 GPU 之間共享數據的成本,并允許更緊密的耦合。

GPU 計算應用程序包括:計算攝影、計算機視覺、針對超高清分辨率(如 HEVC 和 VP9)的現代多媒體編解碼器、復雜圖像處理和手勢識別。

ARM 是異構系統架構 (HSA) 基金會的創始成員之一。該基金會旨在提供一種免版稅規范,以便更輕松地利用 SoC 中的異構 CPU、GPU 和 DSP 硬件。這包括共享虛擬內存和完全一致 GPU 的路線圖。這些技術將進一步降低處理引擎之間共享數據的成本。

4、企業應用:網絡和服務器

網絡和服務器等企業應用程序具有高性能串行接口,例如 PCI Express、串行 ATA 和以太網。在大多數應用程序中,所有這些數據都將被標記為共享,因為在許多情況下 CPU 需要從這些串行接口訪問數據。下圖顯示了一個簡化的示例系統。

CCI-400 Cache Coherent Interconnect 被設計成一系列小型企業應用,包括住宅網關、安全設備、WLAN 企業接入點、工業通信和微型服務器。這些應用程序使用一系列 ARM 處理器,具體取決于從 Cortex-A7 到 Cortex-A57 的性能要求,最多總共有 8 個內核,沒有 L3 緩存。

ARM 擁有一系列互連產品,可在一系列內核數量上擴展性能:

  • CoreLink CCI-400 Cache Coherent Interconnect
    最多 2 個集群,8 個內核
  • CoreLink CCN-504 Cache Coherent Network
    最多 4 個集群,16 個內核
    集成 L3 緩存,2 通道 72 位 DDR
  • CoreLink CCN-508 Cache Coherent Network
    多達 8 個集群,32 個內核
    集成 L3 緩存,4 通道 72 位 DDR

5、CoreLink CCI-400 Cache Coherent Interconnect

下表詳細介紹了 CoreLink CCI-400 的主要特性:

兩個最常見的問題是:它有多大,運行速度有多快?CoreLink CCI-400 有許多配置選項,包括寄存器階段和事務跟蹤器大小,允許針對給定應用優化互連區域和性能。在低端,門帳戶下降到 10 萬門。在時鐘速度方面,我們的基準實施試驗以 533MHz 的 CMOS 32LP 工藝開始,但我們看到許多合作伙伴在更小的硅幾何結構上以更高的速度實施,并使用更快的實施技術。

下圖展示了帶有 Cortex-A50 系列處理器、CoreLink MMU-500 系統 MMU 和一系列 CoreLink 400 系統 IP 的示例移動應用處理器。

在該系統中,Cortex-A57 和 Cortex-A53 提供 big.LITTLE 處理器組合,并通過 AMBA 4 ACE 連接到 CCI-400,以提供完整的硬件一致性。Mali-T628 和 IO Coherent 主站通過 AMBA 4 ACE-Lite 接口連接到 CCI-400。如第一篇博客所述,這種 IO 一致性允許 IO 一致性代理從處理器緩存中讀取數據。

系統中的其他組件包括:

  • MMU-500 系統 MMU - 提供第 1 階段和/或第 2 階段地址轉換,以支持系統組件的內存可視化。
  • TZC-400 TrustZone 地址空間控制器- 對內存或外圍設備的事務執行安全檢查,并允許將內存區域標記為安全或受保護。
  • DMC-400 動態內存控制器- 提供動態內存調度和與外部 DDR2/3 或 LPDDR2 內存的接口。
  • NIC-400 網絡互連- 為 AMBA 4 AXI4、AMBA 3 AXI3、AHB-Lite 和 APB 組件提供完全可配置、分層、低延遲的連接。

6、總結

本文介紹了硬件一致性和移動應用程序的實現,例如 big.LITTLE 處理和企業。所有這些應用程序的核心是像 CoreLink CCI-400 這樣的緩存一致性互連。作為 IP 提供商,ARM 處于獨特的地位,可以提供 Cortex 處理器、Mali 圖形和 CoreLink 緩存相干互連以及工具和物理 IP 的完整解決方案

7、參考

Extended System Coherency: Part 2 - Implementation, big.LITTLE, GPU Compute and Enterprise

總結

以上是生活随笔為你收集整理的02-缓存一致性---实现big.LITTLE、GPU 计算和企业应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。