當(dāng)前位置：首頁(yè) > 编程语言 > c/c++ >内容正文

c/c++

浅谈C++对象内存布局

發(fā)布時(shí)間：2024/9/30 c/c++ 37 豆豆

生活随笔收集整理的這篇文章主要介紹了浅谈C++对象内存布局小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

http://yalung929.blog.163.com/blog/static/20389822520123910561654/

最簡(jiǎn)單的類

先從一個(gè)簡(jiǎn)單的類開始吧。如下，此簡(jiǎn)單類，非常簡(jiǎn)單，兩個(gè)int成員，通過(guò)printf很容易了解到它的內(nèi)存布局，本質(zhì)就是一個(gè)C結(jié)構(gòu)體，兩個(gè)成員依次排列。

對(duì)象：|成員1 | 成員2 |??

1: #include <cstdio> 2: class Class0 3: { 4: public: 5: int member1; 6: int member2; 7: }; 8: int main() 9: { 10: Class0 c; 11: printf("object addr=0x%lx\nmember1 addr=0x%lx\nmember2 addr=0x%lx\n", 12: &c, &c.member1, &c.member2); 13: return 0; 14: } # ./a.out object addr=0x7fffea480d70 member1 addr=0x7fffea480d70 //類成員1 member2 addr=0x7fffea480d74 //類成員2

成員函數(shù)

那么我們?cè)黾狱c(diǎn)復(fù)雜性，添加一個(gè)成員函數(shù)。?

1: #include <cstdio> 2: class Class1 3: { 4: public: 5: int member1; 6: int member2; 7: void function1() { printf("Class1::function1"); } 8: }; 9: int main() 10: { 11: Class1 c; 12: printf("object addr=0x%lx\n", &c); 13: printf("member1 addr=0x%lx\n", &c.member1); 14: printf("member1 addr=0x%lx\n", &c.member2); 15: printf("function1 addr=0x%lx\n", &Class1::function1); 16: return 0; 17: } ./a.out object addr =0x7fff6805bf90 member1 addr=0x7fff6805bf90 member1 addr=0x7fff6805bf94 function1 addr=0x4006a0//成員函數(shù)地址在代碼段。----這簡(jiǎn)直是廢話，不在代碼段沒法玩啊。對(duì)象：??? | 成員1 | 成員2 |???
代碼段：? |成員函數(shù)|?
我們看到，對(duì)象數(shù)據(jù)成員的布局并沒有變化，但是函數(shù)成員的地址跑到十萬(wàn)八千里之外了。為什么？很簡(jiǎn)單，因?yàn)楹瘮?shù)是代碼，放在了代碼段。這也是我們通過(guò)Class1::function1來(lái)取值，而不是c.function1的原因。從這里可以看出，類的函數(shù)成員本質(zhì)就是一個(gè)C全局函數(shù)，那么如果函數(shù)內(nèi)訪問類的非靜態(tài)數(shù)據(jù)成員，如何動(dòng)態(tài)的獲取成員地址？編譯器是這樣做的：?
1. 編譯器生成function1()的指令時(shí)，如果遇到了訪問對(duì)象的數(shù)據(jù)成員，比如member1，就從一個(gè)約定的位置（比如一個(gè)寄存器）獲取對(duì)象的首地址（其實(shí)就是this指針），然后加上偏移（這個(gè)是編譯時(shí)期可以確定的），也就找到了member1對(duì)應(yīng)的內(nèi)存位置，就可以訪問member1了。?
2. 編譯器生成c.function1()對(duì)應(yīng)的指令時(shí)，把c的地址，放到了上述約定的位置。?
簡(jiǎn)單來(lái)說(shuō)，c.function1() 等價(jià)于function1(c), c是作為隱含參數(shù)傳遞給function1了。?

虛函數(shù)

好了搞清楚了成員函數(shù)的工作機(jī)制，我們?cè)龠M(jìn)一步分析，如下例子，有了繼承，并且基類成員函數(shù)是一個(gè)虛函數(shù)。派生類重載了它。?

1: #include <cstdio> 2: class Base 3: { 4: public: 5: virtual void function() { printf("Base::function1\n"); } 6: }; 7: class Derived : public Base 8: { 9: public: 10: void function() { printf("Derived::function1\n"); } 11: }; 12: int main() 13: { 14: printf("Base::function addr = 0x%lx\n", &Base::function); 15: printf("Derived::function addr = 0x%lx\n", &Derived::function); 16: Base* pb = new Derived(); 17: pb->function(); 18: return 0; 19: } ./a.out Base::function addr = 0x1 Derived::function addr = 0x1 Derived::function1 我們看看它的輸出，成員函數(shù)的地址是0x1，這明顯不是一個(gè)合法的地址，更像是一個(gè)偏移量，為什么？暫且先不管為什么地址是0x1，不妨先分析下，下面這兩行代碼是如何工作的。?
1: Base* pb = new Derived(); 2: pb->function();
派生類指針賦給了基類指針，調(diào)用function，但執(zhí)行還是派生類的function，這就是多態(tài)了。那么對(duì)于 pb->function(); 這個(gè)語(yǔ)句來(lái)說(shuō)，編譯器是不能夠在編譯時(shí)期決定調(diào)用哪個(gè)function的。因?yàn)樗⒉恢纏b這個(gè)指針是通過(guò)派生類轉(zhuǎn)化而來(lái)。大家會(huì)說(shuō)，我們上面的語(yǔ)句不是告訴它了嗎？這個(gè)肯定不行，編譯器不能做這個(gè)上下文關(guān)聯(lián)，你要是通過(guò)函數(shù)參數(shù)傳遞過(guò)來(lái)，賦值的地方離這條語(yǔ)句很遠(yuǎn)甚至都不在一個(gè)源文件里面怎么辦？所以這個(gè)決定調(diào)用哪個(gè)function的信息，必須保存在內(nèi)存里面，運(yùn)行期間就可以執(zhí)行正確的函數(shù)。那么具體保存在哪里？如何工作的？gcc是這樣做的：?
1. 申請(qǐng)一段內(nèi)存，存放虛函數(shù)的地址。就是一些書上所說(shuō)的虛表。本質(zhì)就是一個(gè)數(shù)組。?
2. 在對(duì)象的起始位置，存放虛表首地址，而不是像普通類對(duì)象那樣存放第一個(gè)非靜態(tài)數(shù)據(jù)成員。?
3.? pb->function(); 這條語(yǔ)句執(zhí)行時(shí)，編譯器知道function是一個(gè)虛函數(shù)（我們聲明了virtual關(guān)鍵字），那么就會(huì)采用虛函數(shù)的調(diào)用方法，首先根據(jù)pb找到虛表的首地址，然后加上一個(gè)偏移量，因?yàn)槭蔷幾g器把function這個(gè)函數(shù)的地址放到虛表內(nèi)的，所以它知道偏移量。我們通過(guò)下面這段代碼驗(yàn)證這點(diǎn)：?
1: #include <cstdio> 2: class Base 3: { 4: public: 5: virtual void function1() { printf("Base::function1\n"); } 6: virtual void function2() { printf("Base::function2\n"); } 7: }; 8: int main() 9: { 10: printf("Base::function addr = 0x%lx\n", &Base::function1); 11: printf("Base::function addr = 0x%lx\n", &Base::function2); 12: Base* pb = new Base; 13: long* vtl = *(long**)pb; 14: printf("0x%lx\n", *(vtl)); 15: printf("0x%lx\n", *(vtl + 1)); 16: return 0; 17: } # ./a.out Base::function addr = 0x1 Base::function addr = 0x9 0x40082a 0x400812 # nm a.out | grep function 000000000040082a W _ZN4Base9function1Ev 0000000000400812 W _ZN4Base9function2Ev # c++filt _ZN4Base9function1Ev Base::function1() # c++filt _ZN4Base9function2Ev Base::function2() 對(duì)象：??? | 虛表地址|成員1 | 成員2 |???
虛表：??? |虛函數(shù)1的地址|虛函數(shù)2的地址|?
代碼段：? |虛函數(shù)1|虛函數(shù)2|?
1. 通過(guò)long* vtl = *(long**)pb; 獲取pb對(duì)象第一個(gè)成員的內(nèi)容，我們拿到了虛表的首地址vtl。??
2. printf("0x%lx\n", *(vtl)); 訪問虛表的第一個(gè)元素，打印的是0x40082a，恰好對(duì)應(yīng)我們通過(guò)nm查看到的Base::function1的函數(shù)地址000000000040082a 。?
3. printf("0x%lx\n", *(vtl + 1)); 訪問虛表的第二個(gè)元素，打印的是0x400812，恰好對(duì)應(yīng)我們通過(guò)nm查看到的Base::function2的函數(shù)地址0000000000400812 。?
那么&Base::function1是0x1，&Base::function2是0x9，何解？其實(shí)怎么解讀，完全看編譯器心情。。。從我們的實(shí)驗(yàn)結(jié)果來(lái)看，gcc是把它解讀成了虛表偏移量+1。編譯器也是可以解讀為函數(shù)的真實(shí)地址的。?
所謂多態(tài)，也就是這么回事兒，其邏輯并不復(fù)雜，只是C++"封裝"了細(xì)節(jié)，只給我們展示了它的強(qiáng)大形象，讓我們覺得多態(tài)好神奇啊，其實(shí)丫的，本質(zhì)就是函數(shù)指針，就是地址而已，因?yàn)榈刂凡攀荂PU理解的東西。懂得這點(diǎn)，就知道內(nèi)核里到處都是多態(tài)，同樣是一個(gè)read操作，read不同的文件，執(zhí)行不同的函數(shù)。。。內(nèi)核就是在文件對(duì)象（C結(jié)構(gòu)體）里，保存了函數(shù)指針，不同的文件系統(tǒng)注冊(cè)不同的函數(shù)指針。內(nèi)核是各種編程技術(shù)、思想的集大成者，OO思想隨處可見。?

單繼承

扯遠(yuǎn)了，我們還是繼續(xù)回到C++，多態(tài)背后的內(nèi)存布局講完了，我們?cè)龠M(jìn)一步分析類繼承的。當(dāng)派生類繼承了基類，也就擁有了基類的數(shù)據(jù)成員，那么這些數(shù)據(jù)成員如何擺放？其實(shí)還能怎么擺放？無(wú)非是順著來(lái)就好了。對(duì)就這樣，但是誰(shuí)先誰(shuí)后？是否順序無(wú)所謂？答案是，基類在前面派生類在后邊更合理。為什么是這樣？我們考慮下面的代碼：?
1: class Base 2: { 3: public: 4: int b; 5: }; 6: class Derived : public Base 7: { 8: public: 9: int d; 10: }; 11: int main() 12: { 13: Derived d; 14: d.b = 2012; 15: Base* b = &d; 16: b->b = 2012; 17: } 我們把一個(gè)派生類對(duì)象地址，賦給基類指針，并且通過(guò)它訪問基類成員，如果派生類對(duì)象的內(nèi)存布局是，基類在后，即成員d在前面，然后成員b。??? d.b = 2012; 這條語(yǔ)句沒有問題，編譯器知道b的位置，d起始位置加4即可。但是 b->b = 2012; 就沒法玩了，因?yàn)榫幾g器不知道b是一個(gè)Derived對(duì)象（原因上面有說(shuō)），那么它就按b在Base中的偏移0，來(lái)算，而這個(gè)偏移，取到的其實(shí)是Derived::d的內(nèi)容。如果反過(guò)來(lái)放，就沒問題了。通過(guò)下面的代碼，我們可以看到，確實(shí)是按基類優(yōu)先的順序存放的。?
1: #include <cstdio> 2: class Base 3: { 4: public: 5: int b; 6: }; 7: class Derived : public Base 8: { 9: public: 10: int d; 11: }; 12: int main() 13: { 14: Derived d; 15: printf("Derived = 0x%lx\n", &d); 16: printf("Derived.b = 0x%lx\n", &d.b); 17: printf("Derived.d = 0x%lx\n", &d.d); 18: return 0; 19: } # ./a.out Derived = 0x7fffece35bf0 Derived.b = 0x7fffece35bf0 Derived.d = 0x7fffece35bf4
對(duì)象：??? | 基類的成員|派生類的成員|???

多繼承

終于來(lái)到了最神奇的地方，那就是多繼承，在討論多繼承的內(nèi)存布局之前，我忍不住要吐槽幾句。C++的設(shè)計(jì)哲學(xué)是大而全，實(shí)際上很多特性可能一輩子都用不到，我覺得一個(gè)好的編程語(yǔ)言，應(yīng)該提供簡(jiǎn)潔的語(yǔ)言特性和強(qiáng)大豐富的功能庫(kù)，比如Python。C++太不精簡(jiǎn)了。實(shí)際上，所有C++程序其實(shí)都是C++子集程序員；但所有C程序員都是C全集程序員。C的語(yǔ)言特性基本沒有多余的，C程序員基本都會(huì)用到。多繼承就是最多余的C++特性之一。可能有些同學(xué)說(shuō)，有些地方用多繼承很方便，不用不太好搞；沒這回事兒，那肯定是類設(shè)計(jì)出了問題，正是因?yàn)檎Z(yǔ)言支持這種特性，才導(dǎo)致一些糟糕的設(shè)計(jì)存在。要是C++不支持，編譯器編譯不過(guò)，你丫的會(huì)想不出來(lái)解決方案？好的語(yǔ)言特性可以直接引導(dǎo)程序員好的設(shè)計(jì)思維。比如Erlang不支持循環(huán)、不支持變量二次賦值…… 逼得程序員完全改變思維方式。。。結(jié)果就是寫出來(lái)的程序，自然支持多核、高并發(fā)，還無(wú)鎖。另外你看google的C++編程規(guī)范就知道，最重要的一部分就是對(duì)C++做減法，取子集。吐槽完畢，可能引起一片拍磚。。。（偶爾還是得拋一些觀點(diǎn)，否則只是純技術(shù)性的，太冷清了）?
單繼承的內(nèi)存布局，是基類成員在前，派生在后，但是多繼承呢？丫的有兩個(gè)基類，誰(shuí)前誰(shuí)后？誰(shuí)前誰(shuí)后不重要，關(guān)鍵的是根據(jù)上面單繼承分析，如果基類成員在派生類對(duì)象的位置不是從頭開始，派生類對(duì)像指針轉(zhuǎn)化為基類指針之后，就不能正確訪問基類成員了。而多繼承，必然至少有一個(gè)基類不是從頭開始的。那么怎么辦？還能怎么辦，涼拌！當(dāng)你把一個(gè)派生類對(duì)象地址賦值給一個(gè)基類指針，如果這個(gè)基類在派生類中的位置，不是從頭開始的，編譯器偷偷的把它改變，加上基類在派生類中的位置偏移量！我們來(lái)驗(yàn)證下：?
1: #include <cstdio> 2: class Base1 3: { 4: public: 5: int b1; 6: }; 7: class Base2 8: { 9: public: 10: int b2; 11: }; 12: class Derived : public Base1, public Base2 13: { 14: public: 15: int d; 16: }; 17: int main() 18: { 19: Derived d; 20: printf("Derived = 0x%lx\n", &d); 21: printf("Derived.b1 = 0x%lx\n", &d.b1); 22: printf("Derived.b2 = 0x%lx\n", &d.b2); 23: printf("Derived.d = 0x%lx\n", &d.d); 24: Base2* b2p = &d; 25: printf("Base2 pointer = 0x%lx\n", b2p); 26: return 0; 27: } ?
# ./a.out Derived = 0x7fffedfe10e0 Derived.b1 = 0x7fffedfe10e0 Derived.b2 = 0x7fffedfe10e4 Derived.d = 0x7fffedfe10e8 Base2 pointer = 0x7fffedfe10e4
可以看到，擺放的順序是Base1，Base2，Derived：?
對(duì)象：| 基類1的成員 | 基類2的成員 | 派生類的成員?
而當(dāng)我們把Derived的地址0x7fffedfe10e0賦給Base2時(shí)，變成了0x7fffedfe10e4，即Base2成員的起始位置，這樣我們的b2p->b2; 可以正確的工作。是不是很神奇？=號(hào)都是不可信的！?

多繼承+虛函數(shù)

如果在多繼承的基礎(chǔ)上有加上了虛函數(shù)怎么辦？也就說(shuō)多了一個(gè)虛表，假設(shè)兩個(gè)基類，gcc是這樣處理的：?
對(duì)象：| 虛表1的地址 | 基類1的成員 | 虛表2的地址 | 基類2的成員 | 派生類的成員?
其中虛表1中存放是派生類重載的虛函數(shù)地址，無(wú)論來(lái)自于基類1還是基類2。虛表2只存放基類2的重載函數(shù)地址（實(shí)際上GCC幫你生成了一個(gè)中間函數(shù)，中間函數(shù)再去調(diào)用實(shí)際的函數(shù)）。?
1: #include <cstdio> 2: class Base1 3: { 4: public: 5: int b1; 6: virtual void function1() { printf("Base1::function1\n"); } 7: }; 8: class Base2 9: { 10: public: 11: int b2; 12: virtual void function2() { printf("Base2::function2\n"); } 13: }; 14: class Derived : public Base1, public Base2 15: { 16: public: 17: int d; 18: void function1() { printf("Derived::function1\n"); } 19: void function2() { printf("Derived::function2\n"); } 20: }; 21: int main() 22: { 23: Derived d; 24: printf("Derived = 0x%lx\n", &d); 25: printf("Derived.b1 = 0x%lx\n", &d.b1); 26: printf("Derived.b2 = 0x%lx\n", &d.b2); 27: printf("Derived.d = 0x%lx\n", &d.d); 28: Base2* b2p = &d; 29: printf("Base2 pointer = 0x%lx\n", b2p); 30: long* vtl = *(long**)b2p; 31: printf("0x%lx\n", *(vtl)); 32: printf("0x%lx\n", *(vtl + 1)); 33: vtl = *(long**)&d; 34: printf("0x%lx\n", *(vtl)); 35: printf("0x%lx\n", *(vtl + 1)); 36: return 0; 37: } # ./a.out Derived = 0x7fffa74ae400 Derived.b1 = 0x7fffa74ae408//b1沒有放在最開始，因?yàn)榈谝粋€(gè)是虛表地址 Derived.b2 = 0x7fffa74ae418//b2沒有放在b1后面，因?yàn)榍斑呥€有一個(gè)虛表地址 Derived.d = 0x7fffa74ae41c Base2 pointer = 0x7fffa74ae410//base2在派生類中的起始位置， 0x4008aa//虛表2中存放的函數(shù)地址，gcc生成的中間函數(shù) 0x0//虛表2中存放的函數(shù)地址  0x4008c8//虛表1中存放的函數(shù)地址，function1 0x4008b0//虛表1中存放的函數(shù)地址，function2 # nm a.out |grep function 00000000004008e0 W _ZN5Base19function1Ev 00000000004008f8 W _ZN5Base29function2Ev 00000000004008c8 W _ZN7Derived9function1Ev 00000000004008b0 W _ZN7Derived9function2Ev 00000000004008aa W _ZThn16_N7Derived9function2Ev # c++filt _ZN7Derived9function1Ev _ZN7Derived9function2Ev _ZThn16_N7Derived9function2Ev Derived::function1() Derived::function2() non-virtual thunk to Derived::function2() # objdump -d a.out | sed -n '/_ZThn16_N7Derived9function2Ev/,/00000/p' 00000000004008aa <_ZThn16_N7Derived9function2Ev>: 4008aa: 48 83 c7 f0 add $0xfffffffffffffff0,%rdi 4008ae: eb 00 jmp 4008b0 <_ZN7Derived9function2Ev>//中間函數(shù)跳轉(zhuǎn)到了function2 00000000004008b0 <_ZN7Derived9function2Ev>:

了解C++內(nèi)存布局的意義

意義至少有一點(diǎn)，讓我們寫出更好的C++程序。內(nèi)存布局越復(fù)雜，性能越差，所以你會(huì)知道該如何選擇。

總結(jié)

以上是生活随笔為你收集整理的浅谈C++对象内存布局的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。