當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何高效的访问内存

發(fā)布時(shí)間：2023/12/10 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了如何高效的访问内存小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

影響內(nèi)存訪問速度的因素主要有：
1.內(nèi)存帶寬：每秒讀寫內(nèi)存的數(shù)據(jù)量，由硬件配置決定。
2.CACHE高速緩沖：CPU與內(nèi)存之間的緩沖器，當(dāng)命中率比較高時(shí)能大大提供內(nèi)存平均訪問速度。
3.TLB轉(zhuǎn)換旁視緩沖：系統(tǒng)虛擬地址向物理地址轉(zhuǎn)換的高速查表機(jī)制，轉(zhuǎn)換速度比普通轉(zhuǎn)換機(jī)制要快。

我們能夠優(yōu)化的只有第2點(diǎn)和第3點(diǎn)。由于CACHE的小容量與SMP的同步競(jìng)爭(zhēng)，如何最大限度的利用高速緩沖就是我們的明確優(yōu)化突破口（以常用的數(shù)據(jù)結(jié)構(gòu)體為例）：
1.壓縮結(jié)構(gòu)體大小：針對(duì)CACHE的小容量。
2.對(duì)結(jié)構(gòu)體進(jìn)行對(duì)齊：針對(duì)內(nèi)存地址讀寫特性與SMP上CACHE的同步競(jìng)爭(zhēng)。
3.申請(qǐng)地址連續(xù)的內(nèi)存空間：針對(duì)TLB的小容量和CACHE命中。
4.其它優(yōu)化：綜合考慮多種因素

具體優(yōu)化方法
1.壓縮結(jié)構(gòu)體大小
系統(tǒng)CACHE是有限的，并且容量很小，充分壓縮結(jié)構(gòu)體大小，使得CACHE能緩存更多的被訪問數(shù)據(jù)，無非是提高內(nèi)存平均訪問速度的有效方法之一。
壓縮結(jié)構(gòu)體大小除了需要我們對(duì)應(yīng)用邏輯做好更合理的設(shè)計(jì)，盡量去除不必要的字段，還有一些額外針對(duì)結(jié)構(gòu)體本身的壓縮方法。

1.1.對(duì)結(jié)構(gòu)體字段進(jìn)行合理的排列
由于結(jié)構(gòu)體自身對(duì)齊的特性，具有同樣字段的結(jié)構(gòu)體，不同的字段排列順序會(huì)產(chǎn)生不同大小的結(jié)構(gòu)體。
大小：12字節(jié)

1 2 3 4 5 6 7

struct box_a { ????char a; ????short b; ????int c; ????char d; };

大小：8字節(jié)

1 2 3 4 5 6 7

struct box_b { ????char a; ????char d; ????short b; ????int c; };

1.2.利用位域
實(shí)際中，有些結(jié)構(gòu)體字段并不需要那么大的存儲(chǔ)空間，比如表示真假標(biāo)記的flag字段只取兩個(gè)值之一，0或1，此時(shí)用1個(gè)bit位即可，如果使用int類型的單一字段就大大的浪費(fèi)了空間。
示例：tcp.h

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

struct tcphdr { ????__be16? source; ????__be16? dest; ????__be32? seq; ????__be32? ack_seq; #if defined(__LITTLE_ENDIAN_BITFIELD) ????__u16?? res1:4, ????????doff:4, ????????fin:1, ????????syn:1, ????????rst:1, ????????psh:1, ????????ack:1, ????????urg:1, ????????ece:1, ????????cwr:1; #elif defined(__BIG_ENDIAN_BITFIELD) ????__u16?? doff:4, ????????res1:4, ????????cwr:1, ????????ece:1, ????????urg:1, ????????ack:1, ????????psh:1, ????????rst:1, ????????syn:1, ????????fin:1; #else #error? "Adjust your <asm/byteorder.h> defines" #endif ????__be16? window; ????__sum16 check; ????__be16? urg_ptr; };

1.3.利用union
union結(jié)構(gòu)體也是壓縮結(jié)構(gòu)體大小的方法之一，它允許我們?cè)谀承┣闆r下能對(duì)結(jié)構(gòu)體的多個(gè)字段進(jìn)行合并或把小字節(jié)字段存放到大字節(jié)字段內(nèi)。
示例：skbuff.h

1 2 3 4 5 6 7 8 9 10 11

struct sk_buff { ????… ????union { ????????__wsum????? csum; ????????struct { ????????????__u16?? csum_start; ????????????__u16?? csum_offset; ????????}; ????}; ????… };

2.對(duì)結(jié)構(gòu)體進(jìn)行對(duì)齊
對(duì)結(jié)構(gòu)體進(jìn)行對(duì)齊有兩層意思，一是指對(duì)較小結(jié)構(gòu)體進(jìn)行機(jī)器字對(duì)齊，二是指對(duì)較大結(jié)構(gòu)體進(jìn)行CACHE LINE對(duì)齊。

2.1.對(duì)較小結(jié)構(gòu)體進(jìn)行機(jī)器字對(duì)齊
我們知道，對(duì)于現(xiàn)代計(jì)算機(jī)硬件來說，內(nèi)存只能通過特定的對(duì)齊地址（比如按照機(jī)器字）進(jìn)行訪問。舉個(gè)例子來說，比如在64位的機(jī)器上，不管我們是要讀取第0個(gè)字節(jié)還是要讀取第1個(gè)字節(jié)，在硬件上傳輸?shù)男盘?hào)都是一樣的。因?yàn)樗紩?huì)把地址0到地址7，這8個(gè)字節(jié)全部讀到CPU，只是當(dāng)我們是需要讀取第0個(gè)字節(jié)時(shí)，丟掉后面7個(gè)字節(jié)，當(dāng)我們是需要讀取第1個(gè)字節(jié)，丟掉第1個(gè)和后面6個(gè)字節(jié)。
當(dāng)我們要讀取的字節(jié)剛好落在兩個(gè)機(jī)器字內(nèi)時(shí)，就出現(xiàn)兩次訪問內(nèi)存的情況，同時(shí)通過一些邏輯計(jì)算才能得到最終的結(jié)果。
因此，為了更好的提升性能，我們須盡量將結(jié)構(gòu)體做到機(jī)器字（或倍數(shù)）對(duì)齊，而結(jié)構(gòu)體中一些頻繁訪問的字段也盡量安排在機(jī)器字對(duì)齊的位置。
大小：12字節(jié)

1 2 3 4 5 6 7 8

struct box_c { ????char a; ????char d; ????short b; ????int c; ????int e; };

大小：16字節(jié)

1 2 3 4 5 6 7 8 9

struct box_d { ????char a; ????char d; ????short b; ????int c; ????int e; ????char padding[4]; };

上面表格右邊的box_d結(jié)構(gòu)體，通過增加一個(gè)填充字段padding將結(jié)構(gòu)體大小增加到16字節(jié)，從而與機(jī)器字倍數(shù)對(duì)齊，這在我們申請(qǐng)連續(xù)的box_d結(jié)構(gòu)體數(shù)組時(shí)，仍能保證數(shù)組內(nèi)的每一個(gè)結(jié)構(gòu)體都與機(jī)器字倍數(shù)對(duì)齊。
通過填充字段padding使得結(jié)構(gòu)體大小與機(jī)器字倍數(shù)對(duì)齊是一種常見的做法，在Linux內(nèi)核源碼里隨處可見。

2.2.對(duì)較大結(jié)構(gòu)體進(jìn)行CACHE LINE對(duì)齊
我們知道，CACHE與內(nèi)存交換的最小單位為CACHE LINE，一個(gè)CACHE LINE大小以64字節(jié)為例。當(dāng)我們的結(jié)構(gòu)體大小沒有與64字節(jié)對(duì)齊時(shí)，一個(gè)結(jié)構(gòu)體可能就要占用比原本需要更多的CACHE LINE。比如，把一個(gè)內(nèi)存中沒有64字節(jié)長(zhǎng)的結(jié)構(gòu)體緩存到CACHE時(shí)，即使該結(jié)構(gòu)體本身長(zhǎng)度或許沒有還沒有64字節(jié)，但由于其前后搭占在兩條CACHE LINE上，那么對(duì)其進(jìn)行淘汰時(shí)就會(huì)淘汰出去兩條CACHE LINE。
這還不是最嚴(yán)重的問題，非CACHE LINE對(duì)齊結(jié)構(gòu)體在SMP機(jī)器上容易引發(fā)名為錯(cuò)誤共享的CACHE問題。比如，結(jié)構(gòu)體T1和T2都沒做CACHE LINE對(duì)齊，如果它們（T1后半部和T2前半部）在SMP機(jī)器上合占了同一條CACHE，如果CPU 0對(duì)結(jié)構(gòu)體T1后半部做了修改則將導(dǎo)致CPU 1的CACHE LINE 1失效，同樣，如果CPU 1對(duì)結(jié)構(gòu)體T2前半部做了修改則也將導(dǎo)致CPU 0的CACHE LINE 1失效。如果CPU 0和CPU 1反復(fù)做相應(yīng)的修改則導(dǎo)致的不良結(jié)果顯而易見。本來邏輯上沒有共享的結(jié)構(gòu)體T1和T2，實(shí)際上卻共享了CACHE LINE 1，這就是所謂的錯(cuò)誤共享。
Linux源碼里提供了利用GCC的__attribute__擴(kuò)展屬性定義的宏來做這種對(duì)齊處理，在文件/linux-2.6.xx/include/linux/cache.h內(nèi)可以找到多個(gè)相類似的宏，比如：

1	#define ____cacheline_aligned __attribute__((__aligned__(SMP_CACHE_BYTES)))

該宏可以用來修飾結(jié)構(gòu)體字段，作用是強(qiáng)制該字段地址與CACHE LINE映射起始地址對(duì)齊。
看/linux-2.6.xx/drivers/net/e100.c內(nèi)結(jié)構(gòu)體nic的實(shí)現(xiàn)，三個(gè)____cacheline_aligned修飾字段，表示強(qiáng)制這些字段與CACHE LINE映射起始地址對(duì)齊。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

struct nic { ????/* Begin: frequently used values: keep adjacent for cache effect */ ????u32 msg_enable????????????? ____cacheline_aligned; ????/* 4字節(jié)空洞 */ ????struct net_device *netdev; ????struct pci_dev *pdev; ????/* 40字節(jié)空洞 */ ????struct rx *rxs????????????? ____cacheline_aligned; ????struct rx *rx_to_use; ????struct rx *rx_to_clean; ????struct rfd blank_rfd; ????enum ru_state ru_running; ????/* 20字節(jié)空洞 */ ????spinlock_t cb_lock????????? ____cacheline_aligned; ????spinlock_t cmd_lock; ????struct csr __iomem *csr; ????enum scb_cmd_lo cuc_cmd; ????unsigned int cbs_avail; ????struct napi_struct napi; ????… }

回到前面的問題，如果我們對(duì)結(jié)構(gòu)體T2的第一個(gè)字段加上____cacheline_aligned修飾，則該錯(cuò)誤共享即可解決。

2.3.只讀字段和讀寫字段隔離對(duì)齊
只讀字段和讀寫字段隔離對(duì)齊的目的就是為了盡量保證那些只讀字段和讀寫字段分別集中在CACHE的不同CACHE LINE中。由于只讀字段幾乎不需要進(jìn)行更新，因而能在CACHE中得以穩(wěn)定的緩存，減少由于混合有讀寫字段導(dǎo)致的對(duì)應(yīng)CACHE LINE的頻繁失效問題，以便提高效率；而讀寫字段相對(duì)集中在一起，這樣也能保證當(dāng)程序讀寫結(jié)構(gòu)體時(shí)，污染的CACHE LINE條數(shù)也就相對(duì)的較少。

1 2 3 4 5 6 7 8 9 10 11 12 13 14

typedef struct { ????/* ro data */ ????size_t block_count;???? // number of total blocks ?? ????size_t meta_block_size; // sizeof per skb meta block ????size_t data_block_size; // sizeof per skb data block ?? ????u8 *meta_base_addr;???? // base address of skb meta buffer ????u8 *data_base_addr;???? // base address of skb data buffer? ?? ????/* rw data */ ????size_t current_index??? ____cacheline_aligned;? // index ?? } bc_buff, * bc_buff_t;

3.申請(qǐng)地址連續(xù)的內(nèi)存空間
隨著地址空間由32位轉(zhuǎn)到64位，頁內(nèi)存管理的目錄分級(jí)也越來越多，4級(jí)的目錄地址轉(zhuǎn)換也是一筆不小是開銷。硬件產(chǎn)商為我們提供了TLB緩沖，加速虛擬地址到物理地址的換算。但是，畢竟TLB是有限，對(duì)地址連續(xù)的內(nèi)存空間進(jìn)行訪問時(shí)，TLB能得到更多的命中，同時(shí)CACHE高速緩沖命中的幾率也更大。
兩段代碼，實(shí)現(xiàn)同一功能，但第一種方法在實(shí)際使用中，內(nèi)存讀寫效率就會(huì)相對(duì)較好，特別是在申請(qǐng)的內(nèi)存很大時(shí)（未考慮malloc異常）：
方法一：

1 2 3 4 5 6 7 8 9

#define MAX 100 int i; char *p; struct box_d *box[MAX]; p = (char *)malloc(sizeof(struct box_d) * MAX); for (i = 0; i < MAX; i ++) { ????box[i] = (struct box_d *)(p + sizeof(struct box_d) * i); }

方法二：

1 2 3 4 5 6 7

#define MAX 100 int i; struct box_d *box[MAX]; for (i = 0; i < MAX; i ++) { ????box[i] = (struct box_d *)malloc(sizeof(struct box_d)); }

另外，如果我們使用更大頁面（比如2M或1G）的分頁機(jī)制，同樣能夠提升性能；因?yàn)橄啾扔谠久宽?K大小的分頁機(jī)制，應(yīng)用程序申請(qǐng)同樣大小的內(nèi)存，大頁面分頁機(jī)制需要的頁面數(shù)目更少，從而占用的TLB項(xiàng)目也更少，減少虛擬地址到物理地址的轉(zhuǎn)換次數(shù)的同時(shí)，提高TLB的命中率，縮短每次轉(zhuǎn)換所需要的時(shí)間。因?yàn)榇蠖鄶?shù)操作系統(tǒng)在分配內(nèi)存時(shí)候都需要按頁對(duì)齊，所以大頁面分頁機(jī)制的缺點(diǎn)就是內(nèi)存浪費(fèi)相對(duì)比較嚴(yán)重。只有在物理內(nèi)存足夠充足的情況下，大頁面分頁機(jī)制才能夠體現(xiàn)出優(yōu)勢(shì)。

4.其它優(yōu)化
4.1.預(yù)讀指令讀內(nèi)存
提前預(yù)取內(nèi)存中數(shù)據(jù)到CACHE內(nèi)，提高CACHE的命中率，加速內(nèi)存讀取速度，這是設(shè)計(jì)預(yù)讀指令的主要目的。如果當(dāng)前運(yùn)算復(fù)雜度比較高，那么預(yù)取和運(yùn)算就可同步進(jìn)行，從而消除下一步內(nèi)存訪問的時(shí)延。相應(yīng)的預(yù)讀匯編指令有prefetch0、prefetch1、prefetch2、 prefetchnta。
預(yù)取指令只是給CPU一個(gè)提示，所以它可被CPU忽略，而且就算預(yù)取一段錯(cuò)誤的地址也不會(huì)導(dǎo)致CPU異常。一般使用prefetchnta預(yù)取指令，因?yàn)樗粫?huì)污染CACHE，它把每次取得的數(shù)據(jù)都存放到L2 CACHE的第一條CACHE LINE，而另外幾條指令會(huì)替換CACHE中最近最少使用的CACHE LINE。

4.2.非暫時(shí)移動(dòng)指令寫內(nèi)存
我們知道為了保證CACHE與內(nèi)存之間的數(shù)據(jù)一致性，CPU對(duì)CACHE的寫操作主要有兩種方式同步到內(nèi)存，寫透式（Write Through）和寫回式（Write-back）。不管哪種同步方式都是要消耗性能的，而在某些情況下，寫CACHE是不必要的：
有哪些情況不需要寫CACHE呢？比如做數(shù)據(jù)拷貝（高效memcpy函數(shù)實(shí)現(xiàn)）時(shí)，或者我們已經(jīng)知道寫的數(shù)據(jù)在最近一段時(shí)間內(nèi)（或者永遠(yuǎn)）都不會(huì)再使用了，那么此時(shí)就可以不用寫CACHE，讓對(duì)應(yīng)的CACHE LINE自動(dòng)失效，以便緩存其它數(shù)據(jù)。這在某些特殊場(chǎng)景非常有用，相應(yīng)的匯編指令有movntq、movntsd、movntss、movntps、movntpd、movntdq、movntdqa。
完整的利用預(yù)讀指令和非暫時(shí)移動(dòng)指令實(shí)現(xiàn)的高速內(nèi)存拷貝函數(shù)：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41

void X_aligned_memcpy_sse2(void* dest, const void* src, const unsigned long size_t) { ??__asm ??{ ????mov esi, src;??? //src pointer ????mov edi, dest;?? //dest pointer ????mov ebx, size_t; //ebx is our counter ????shr ebx, 7;????? //divide by 128 (8 * 128bit registers) ?? ????loop_copy: ??????prefetchnta 128[ESI]; //SSE2 prefetch ??????prefetchnta 160[ESI]; ??????prefetchnta 192[ESI]; ??????prefetchnta 224[ESI]; ?? ??????movdqa xmm0, 0[ESI]; //move data from src to registers ??????movdqa xmm1, 16[ESI]; ??????movdqa xmm2, 32[ESI]; ??????movdqa xmm3, 48[ESI]; ??????movdqa xmm4, 64[ESI]; ??????movdqa xmm5, 80[ESI]; ??????movdqa xmm6, 96[ESI]; ??????movdqa xmm7, 112[ESI]; ?? ??????movntdq 0[EDI], xmm0; //move data from registers to dest ??????movntdq 16[EDI], xmm1; ??????movntdq 32[EDI], xmm2; ??????movntdq 48[EDI], xmm3; ??????movntdq 64[EDI], xmm4; ??????movntdq 80[EDI], xmm5; ??????movntdq 96[EDI], xmm6; ??????movntdq 112[EDI], xmm7; ?? ??????add esi, 128; ??????add edi, 128; ??????dec ebx; ?? ??????jnz loop_copy; //loop please ????loop_copy_end: ??} }

總結(jié)
要高效的訪問內(nèi)存，必須充分利用系統(tǒng)CACHE的緩存功能，因?yàn)榫湍壳皝碚f，CACHE的訪問速度比內(nèi)存快太多了。具體優(yōu)化方法有：
1.用設(shè)計(jì)上壓縮結(jié)構(gòu)體大小。
2.結(jié)構(gòu)體盡量做到機(jī)器字（倍數(shù)）對(duì)齊。
3.結(jié)構(gòu)體中頻繁訪問的字段盡量放在機(jī)器字對(duì)齊的位置。
4.頻繁讀寫的多個(gè)結(jié)構(gòu)體變量盡量同時(shí)申請(qǐng)，使得它們盡可能的分布在較小的線性空間范圍內(nèi)，這樣可利用TLB緩沖。
5.當(dāng)結(jié)構(gòu)體比較大時(shí)，對(duì)結(jié)構(gòu)體字段進(jìn)行初始化或設(shè)置值時(shí)最好從第一個(gè)字段依次往后進(jìn)行，這樣可保證對(duì)內(nèi)存的訪問是順序進(jìn)行。
6.額外的優(yōu)化可以采用非暫時(shí)移動(dòng)指令（如movntdq）與預(yù)讀指令（如prefetchnta）。
7.特殊情況可考慮利用多媒體指令SSE2、SSE4等。
當(dāng)然，上面某些步驟之間存在沖突，比如壓縮結(jié)構(gòu)體和結(jié)構(gòu)體對(duì)齊，這就需要實(shí)際綜合考慮。

轉(zhuǎn)載請(qǐng)保留地址：http://lenky.info/2011/11/23/%e5%a6%82%e4%bd%95%e9%ab%98%e6%95%88%e7%9a%84%e8%ae%bf%e9%97%ae%e5%86%85%e5%ad%98/ 或 http://lenky.info/?p=310

總結(jié)

以上是生活随笔為你收集整理的如何高效的访问内存的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：要进军游戏产品？魅族PANDAER新品夏
下一篇：程序员找工作那点事儿