深入理解JVM类文件格式
我們知道Java最有名的宣傳口號就是:“一次編寫,到處運行(Write Once,Run Anywhere)”,而其平臺無關性則是依賴于JVM, 所有的java文件都被編譯成字節碼(class)文件,而虛擬機只需要認識字節碼文件就可以了。想要弄懂虛擬機以及類加載機制,這部分內容是不可不知的。
Class文件是一組以8字節為基礎單位的二進制流,所有數據無間隔的排列在Class文件之中,多字節數據以大端(big-endian order)的方式存儲。Class文件以一種接近于C中結構體的偽代碼形式存儲數據結構,并且只包含無符號數和表兩種數據結構:
- 無符號數:u1、u2、u4、u8分別表1、2、4、8字節的無符號數
- 表: 由多個無符號數或者其他表組成的復合數據類型, Class文件本身也是一張表。
Class表結構:
ClassFile {u4 magic;u2 minor_version;u2 major_version;u2 constant_pool_count;cp_info constant_pool[constant_pool_count-1];u2 access_flags;u2 this_class;u2 super_class;u2 interfaces_count;u2 interfaces[interfaces_count];u2 fields_count;field_info fields[fields_count];u2 methods_count;method_info methods[methods_count];u2 attributes_count;attribute_info attributes[attributes_count]; }復制代碼參照上面的數據結構,Class文件由10個部分組成:
1 . 魔數
2 . Class文件主次版本號
3 . 常量池
4 . 訪問標記
5 . 當前類名
6 . 父類名
7 . 繼承的接口名
8 . 包含的所有字段的數量+字段
9 . 包含的所有方法的數量+方法
10 . 包含的所有屬性的數量+屬性
下面我們依次對每個部分進行分析:
1. 魔數
魔數(Magic number)用來確定文件類型,這里就是檢測文件是否是能夠被虛擬機接受的Class文件。很多文件都使用魔數來確定文件類型,而不是擴展名(因為擴展名可以任意修改)。可以參看我的深入理解程序構造(一)。
Class文件的魔數是“0xcafebabe”,咖啡寶貝?Java本身也是一種爪哇咖啡,真是挺有緣的。
這里我也寫個小的測試程序,來看看它的二進制碼流:
我們使用javac編譯成.class文件,Windows下可以使用WinHex打開,Linux下則可以使用hexdump打開二進制,命令如下:
$ hexdump -C TestClass.class 00000000 ca fe ba be 00 00 00 34 00 16 0a 00 04 00 12 09 |.......4........| 00000010 00 03 00 13 07 00 14 07 00 15 01 00 01 6d 01 00 |.............m..| 00000020 01 49 01 00 06 3c 69 6e 69 74 3e 01 00 03 28 29 |.I...<init>...()| 00000030 56 01 00 04 43 6f 64 65 01 00 0f 4c 69 6e 65 4e |V...Code...LineN| 00000040 75 6d 62 65 72 54 61 62 6c 65 01 00 12 4c 6f 63 |umberTable...Loc| 00000050 61 6c 56 61 72 69 61 62 6c 65 54 61 62 6c 65 01 |alVariableTable.| 00000060 00 04 74 68 69 73 01 00 19 4c 63 6f 6d 2f 73 68 |..this...Lcom/sh| 00000070 75 71 69 6e 67 32 38 2f 54 65 73 74 43 6c 61 73 |uqing28/TestClas| 00000080 73 3b 01 00 03 69 6e 63 01 00 03 28 29 49 01 00 |s;...inc...()I..| 00000090 0a 53 6f 75 72 63 65 46 69 6c 65 01 00 0e 54 65 |.SourceFile...Te| 000000a0 73 74 43 6c 61 73 73 2e 6a 61 76 61 0c 00 07 00 |stClass.java....| 000000b0 08 0c 00 05 00 06 01 00 17 63 6f 6d 2f 73 68 75 |.........com/shu| 000000c0 71 69 6e 67 32 38 2f 54 65 73 74 43 6c 61 73 73 |qing28/TestClass| 000000d0 01 00 10 6a 61 76 61 2f 6c 61 6e 67 2f 4f 62 6a |...java/lang/Obj| 000000e0 65 63 74 00 21 00 03 00 04 00 00 00 01 00 02 00 |ect.!...........| 000000f0 05 00 06 00 00 00 02 00 01 00 07 00 08 00 01 00 |................| 00000100 09 00 00 00 2f 00 01 00 01 00 00 00 05 2a b7 00 |..../........*..| 00000110 01 b1 00 00 00 02 00 0a 00 00 00 06 00 01 00 00 |................| 00000120 00 03 00 0b 00 00 00 0c 00 01 00 00 00 05 00 0c |................| 00000130 00 0d 00 00 00 01 00 0e 00 0f 00 01 00 09 00 00 |................| 00000140 00 31 00 02 00 01 00 00 00 07 2a b4 00 02 04 60 |.1........*....`| 00000150 ac 00 00 00 02 00 0a 00 00 00 06 00 01 00 00 00 |................| 00000160 06 00 0b 00 00 00 0c 00 01 00 00 00 07 00 0c 00 |................| 00000170 0d 00 00 00 01 00 10 00 00 00 02 00 11 |.............| 0000017d復制代碼看第一行的前4個字節的十六進制就是0xcafebabe,所以文件類型確實為.class文件。
2. 版本號
第5和第6字節是次版本號(Minor Version),第7和第8字節是主版本號(Major Version)。這里看出我們的主版本號是0x0034,也就是52,下面是JDK與其對應的版本號關系:
JDK 1.8 = 52
JDK 1.7 = 51
JDK 1.6 =50
JDK 1.5 = 49
JDK 1.4 = 48
JDK 1.3 = 47
JDK 1.2 = 46
JDK 1.1 = 45
可以看出我使用的是Java8編譯的代碼。
3. 常量池
我們繼續看二進制文件的第一行:
00000000 ca fe ba be 00 00 00 34 00 16 0a 00 04 00 12 09 |.......4........|復制代碼在主版本號0x0034后的是0x0016,這個值表示常量池的容量。常量池可以理解為Class文件的資源倉庫,常量池中包含的數據結構是這樣的:
cp_info {u1 tag;u1 info[]; }復制代碼常量池中的每個項目都包含一個tag開頭的cp_info對象,代表著常量類型,info則根據不同的類型各有各的結構。目前一共有14種常量類型:
| CONSTANT_Class | 7 |
| CONSTANT_Fieldref | 9 |
| CONSTANT_Methodref | 10 |
| CONSTANT_InterfaceMethodref | 11 |
| CONSTANT_String | 8 |
| CONSTANT_Integer | 3 |
| CONSTANT_Float | 4 |
| CONSTANT_Long | 5 |
| CONSTANT_Double | 6 |
| CONSTANT_NameAndType | 12 |
| CONSTANT_Utf8 | 1 |
| CONSTANT_MethodHandle | 15 |
| CONSTANT_MethodType | 16 |
| CONSTANT_InvokeDynamic | 18 |
上面的0x0016翻譯成十進制是22,那么常量池中有21個常量,因為常量池中索引是從1開始計數的,所以常量索引范圍是1~21。
00000000 ca fe ba be 00 00 00 34 00 16 0a 00 04 00 12 09 |.......4........|復制代碼接下看常量池的第一個常量, tag是0x0a, 查上面的常量表就是CONSTANT_Methodref,表示接下來定義的是一個方法,知道類型后,我們可以查一下CONSTANT_Methodref的結構,這里可以參考Oracle的官方文檔The class File Format,
CONSTANT_Methodref_info {u1 tag;u2 class_index;u2 name_and_type_index; }復制代碼由于.class文件是無間隔的二進制文件,所以接著讀:
- tag: 0x0a,上面已經說了指代CONSTANT_Methodref常量
- class_index:指向常量池中CONSTANT_Class_info類型的常量,代表上面方法的名稱
- name_and_type_index : 指向常量池中CONSTANT_NameAndType_info常量,是對方法的描述
因為class_index占兩個字節,所以緊接著讀到了0x0004,也就是4,指向常量池中的第4個常量,name_and_type_index是0x0012,指向第18個常量。后面會分析到第4和第18個常量。
繼續往下讀,到第一行的最末了,是個0x09,指示的是CONSTANT_Fieldref,表示接下來是對一個域的定義, 查官方文檔,格式為:
CONSTANT_Fieldref_info {u1 tag;u2 class_index;u2 name_and_type_index; }復制代碼結構和CONSTANT_Methodref_info一樣,這時候讀到了第二行:
00000010 00 03 00 13 07 00 14 07 00 15 01 00 01 6d 01 00 |.............m..|復制代碼class_index為0x0003,指向第3個常量,name_and_type_index為0x0013指向第13個常量。這時候繼續往后讀,終于讀到第3個常量了。此時tag是0x07,查表可得為CONSTANT_Class類型,此類型的常量代表一個類或者接口的符號引用,CONSTANT_Class的結構:
CONSTANT_Class_info {u1 tag;u2 name_index; }復制代碼tag是7, name_index是0x0014,十進制就是20,指向第20個常量,這樣我們已經讀了很多個字節了。但是這樣解析下去很累,還好java自帶的javap工具可以幫我們分析出字節碼的內容。
執行下面語句:
我們可以得到:
Last modified Nov 14, 2017; size 381 bytesMD5 checksum 102d643185c4823ef103931ff3e34462Compiled from "TestClass.java" public class com.shuqing28.TestClassminor version: 0major version: 52flags: ACC_PUBLIC, ACC_SUPER Constant pool:#1 = Methodref #4.#18 // java/lang/Object."<init>":()V#2 = Fieldref #3.#19 // com/shuqing28/TestClass.m:I#3 = Class #20 // com/shuqing28/TestClass#4 = Class #21 // java/lang/Object#5 = Utf8 m#6 = Utf8 I#7 = Utf8 <init>#8 = Utf8 ()V#9 = Utf8 Code#10 = Utf8 LineNumberTable#11 = Utf8 LocalVariableTable#12 = Utf8 this#13 = Utf8 Lcom/shuqing28/TestClass;#14 = Utf8 inc#15 = Utf8 ()I#16 = Utf8 SourceFile#17 = Utf8 TestClass.java#18 = NameAndType #7:#8 // "<init>":()V#19 = NameAndType #5:#6 // m:I#20 = Utf8 com/shuqing28/TestClass#21 = Utf8 java/lang/Object {public com.shuqing28.TestClass();descriptor: ()Vflags: ACC_PUBLIC ...//省略復制代碼這里我們可以看到Constant pool字段,后面依次列出了21個常量,可以看出第一個是Methodref型的常量,class_index指向第4個常量,第4個常量呢是CONSTANT_Class類型,name_index又指向第20個常量,可知是一個CONSTANT_Utf8類型的常量,前面沒說到CONSTANT_Utf8,下面是它的結構:
CONSTANT_Utf8_info {u1 tag;u2 length;u1 bytes[length]; }復制代碼第一位tag為1,length指示字符數組的長度,bytes[length]是使用UTF-8縮略編碼表示的字符串,這里解析出來是com/shuqing28/TestClass,即類的全限定名。
繼續回到第一個Methodref常量,它的name_and_type_index值是18, 繼續找到第18個常量,是CONSTANT_NameAndType_info類型,代表的是一個方法的信息:
CONSTANT_NameAndType_info {u1 tag;u2 name_index;u2 descriptor_index; }復制代碼name_index指向了常量7, 即#7 = Utf8 <init>, 是一個CONSTANT_Utf8_info類型,值為,這個是方法的名稱,descriptor_index指向了常量8,即#8 = Utf8 ()V,是方法的描述,下文會說這個表達式是什么意思。
這樣我們就可以一一把這21個常量分析清楚了。
其實Class文件就是在一開始列出了一堆常量,后面的各種描述都是各種index,指向前面常量池中的各種常量,來描述整個類的定義。就像有一本字典,我們使用字典中的字來造我們的句子,只不過Class文件中造句是有嚴格格式規定的,下面的內容基本都按照固定格式,無間隔的描述一個類的內容。
4. 訪問標志
常量池結束后,緊接著的兩個字節代表訪問標志(access_flags),這個標志用于識別一些類或者接口的訪問信息,包括這個Class是類還是接口,是否是public的,是否是abstract,是否是final的。
訪問標記含義如下表:
| ACC_PUBLIC | 0x0001 | Declared public; may be accessed from outside its package. |
| ACC_FINAL | 0x0010 | Declared final; no subclasses allowed. |
| ACC_SUPER | 0x0020 | Treat superclass methods specially when invoked by the invokespecial instruction. |
| ACC_INTERFACE | 0x0200 | Is an interface, not a class. |
| ACC_ABSTRACT | 0x0400 | Declared abstract; must not be instantiated. |
| ACC_SYNTHETIC | 0x1000 | Declared synthetic; not present in the source code. |
| ACC_ANNOTATION | 0x2000 | Declared as an annotation type. |
| ACC_ENUM | 0x4000 | Declared as an enum type. |
access_flags中一共有16個標志位可用,當前只定義了8個,別的都為0,TestClass是public類型的,且使用JDK1.2以后的編譯器進行編譯的(使用JDK1.2以后的編譯器編譯,這個值都為真),別的標志都為假。所以access_flags的值應為:0x0001|0x0020 = 0x0021。我們找到剛才常量池最后一行的地方:
000000e0 65 63 74 00 21 00 03 00 04 00 00 00 01 00 02 00 |ect.!...........|復制代碼65 63 74分別對應ect,緊接著是0x0021,與我們的分析結果一致。
5.類索引、父類索引與接口索引集合
引用文章開頭的ClassFile的數據結構,這三項定義為:
u2 this_class;u2 super_class;u2 interfaces_count;u2 interfaces[interfaces_count];復制代碼類索引和父類索引都是u2類型的數據,而接口索引首先給出了接口的數量,然后才是一個包含接口的數組。這三個值揭示了一個類的繼承關系。
000000e0 65 63 74 00 21 00 03 00 04 00 00 00 01 00 02 00 |ect.!...........|復制代碼接著前面的0x0021看,類索引為0x0003,指示常量池第3個常量,查上文可得#3 = Class #20 // com/shuqing28/TestClass,第3個常量又指向第20個常量,而第20個常量是一個CONSTANT_Utf8變量,其值為com/shuqing28/TestClass,表示類的全限定名字符串。
接下來的是0x0004是父類索引,指向常量池中第4個常量,即#4 = Class #21 // java/lang/Object, 又指向第21個變量,即java/lang/Object,我們知道Object是所有類的父類。
接下來的是0x0000,可見TestClass沒有實現任何接口。
6.字段表集合
字段表用于描述接口或者類中聲明的變量。字段包括類級別的變量以及實例級的變量,但是不包括方法內的局部變量。一個Java字段可以包括以下信息:字段的作用域、是實例變量還是類變量、是否是final、并發可見性(volatile),是否可以被序列化(transient)、字段數據類型。下面是字段表具體結構:
field_info {u2 access_flags;u2 name_index;u2 descriptor_index;u2 attributes_count;attribute_info attributes[attributes_count]; }復制代碼再看access_flags可以取以下值:
| ACC_PUBLIC | 0x0001 | Declared public; may be accessed from outside its package. |
| ACC_PRIVATE | 0x0002 | Declared private; usable only within the defining class. |
| ACC_PROTECTED | 0x0004 | Declared protected; may be accessed within subclasses. |
| ACC_STATIC | 0x0008 | Declared static. |
| ACC_FINAL | 0x0010 | Declared final; never directly assigned to after object construction (JLS §17.5). |
| ACC_VOLATILE | 0x0040 | Declared volatile; cannot be cached. |
| ACC_TRANSIENT | 0x0080 | Declared transient; not written or read by a persistent object manager. |
| ACC_SYNTHETIC | 0x1000 | Declared synthetic; not present in the source code. |
| ACC_ENUM | 0x4000 | Declared as an element of an enum. |
一般來說,ACC_PUBLIC、ACC_PRIVATE、ACC_PROTECTED三個標志最多只能存在一個,其它標志都按照Java語言本身的性質來。
在access_flags標志的后面是兩項索引值name_index,descriptor_index,兩個都是指向常量池的索引,分別代表字段的簡單名稱以及字段和方法的描述符。
這里我們梳理下簡單名稱、描述符以及全限定名這三個詞對應的概念:
全限定名:前面提到的com/shuqing28/TestClass就是全限定名,它把java代碼中所有的"."替換成了"/",一般使用";"結尾。
簡單名稱:不帶類型和修飾的方法或者字段名,上文中的代碼里就是"inc"和"m"
至于方法描述符,描述的是數據類型、方法的參數列表和返回值。我們知道在C++中重載函數時函數實際上是換了名字的,包含了函數的參數,例如add(int x, int y),在編譯后可能是Add_Int_Int, 但是在Java中我們把基本數據類型都用一個大寫字符來表示,而對象類則是使用L+對象的全限定名來表示。
描述符標識字符含義:
| B | byte |
| C | char |
| D | double |
| F | float |
| I | int |
| J | long |
| S | short |
| Z | boolean |
| V | void |
| L | Object, 例如 Ljava/lang/Object |
對于數組,前面加[就行,如java.lang.String[][],表達為[[java/lang/String, int[] 就被記錄為[I。
用描述符描述方法時,按照參數列表,返回值的順序描述,參數列表還需要放在括號內。比如前文提及的"() V" 就表示一個參數為空,返回值為void的方法,即代碼中的void inc()方法。
舉個復雜點的, int indexOf(char[] source, int sourceOffset, int sourceCount, char[] target, int targetOffset, int targetCount, int fromIndex),其描述符為([CII[CIII) I。
繼續分析我們前文中提及的程序的二進制代碼:
000000e0 65 63 74 00 21 00 03 00 04 00 00 00 01 00 02 00 |ect.!...........| 000000f0 05 00 06 00 00 00 02 00 01 00 07 00 08 00 01 00 |................|復制代碼上一小節我們分析到第一行的0x0000了,接下來的是0x01,這個值其實代表了字段表的個數,我們的代碼里只包含一個字段。接下來的是0x0002,這個字段是access_flags標志,查詢后可知為ACC_PRIVATE,再接下來是0x0005, 從常量表清單上可以查到是#5 = Utf8 m, 再接著是descriptor_index, 其值為0x0006,查一下常量池為#6 = Utf8 I,可知這一句為private int m;
一般來說,在decriptor_index后,還有個屬性集合用于存儲一些額外信息,而0x0000代表沒有屬性字段。
如果把m字段聲明為private static int m = 123; 則可能多一個ConstantValue屬性,指向常量值123。
7.方法表集合
方法表集合和字段表集合非常相似,結構也是:
method_info {u2 access_flags;u2 name_index;u2 descriptor_index;u2 attributes_count;attribute_info attributes[attributes_count]; }復制代碼只不過在訪問標志和屬性表集合的可選項有所不同。例如access_flags有以下可選值:
| ACC_PUBLIC | 0x0001 | Declared public; may be accessed from outside its package. |
| ACC_PRIVATE | 0x0002 | Declaredprivate; accessible only within the defining class. |
| ACC_PROTECTED | 0x0004 | Declaredprotected; may be accessed within subclasses. |
| ACC_STATIC | 0x0008 | Declaredstatic. |
| ACC_FINAL | 0x0010 | Declaredfinal; must not be overridden |
| ACC_SYNCHRONIZED | 0x0020 | Declaredsynchronized; invocation is wrapped by a monitor use. |
| ACC_BRIDGE | 0x0040 | A bridge method, generated by the compiler. |
| ACC_VARARGS | 0x0080 | Declared with variable number of arguments. |
| ACC_NATIVE | 0x0100 | Declarednative; implemented in a language other than Java. |
| ACC_ABSTRACT | 0x0400 | Declaredabstract; no implementation is provided. |
| ACC_STRICT | 0x0800 | Declaredstrictfp; floating-point mode is FP-strict. |
| ACC_SYNTHETIC | 0x1000 | Declared synthetic; not present in the source code. |
可以看出,方法里增加了像ACC_SYNCHRONIZED,ACC_NATIVE,ACC_STRICT, ACC_ABSTRACT, 分別對應著synchronized、native、strictfp、abstract這些只能修飾方法的關鍵字。
現在我們就可以繼續分析我們程序的二進制代碼了。
000000f0 05 00 06 00 00 00 02 00 01 00 07 00 08 00 01 00 |................| 00000100 09 00 00 00 2f 00 01 00 01 00 00 00 05 2a b7 00 |..../........*..|復制代碼上一小節我們剛剛分析到000000f0行的0x0000,接下來的是0x0002,代表有兩個方法,接下來的幾個字節是
- 0x0001:訪問標記是ACC_PUBLIC
- 0x0007:名稱索引指向第7個常量:
- 0x0008:描述符索引指向第8個常量:()V
- 0x0001:屬性有一個
- 0x0009:屬性指向第9個常量,Code
我們正好有疑問,方法定義有了,方法體在哪呢,答案就是上面分析的最后一個Code。下一節就說說屬性表集合的各種可能。
8.屬性表集合
屬性表(attribute_info)在前面已經多次提及,Class文件、字段表、方法表中都可以攜帶自己的屬性表集合,用于描述某些場景轉有的信息。
屬性表并沒有嚴格限制順序,只要不與已有屬性名重復,任何人實現的編譯器都可以添加自己定義的屬性信息,以下是一些預定義的屬性:
| SourceFile | ClassFile | 記錄源文件的名稱 |
| InnerClasses | ClassFile | 內部類列表 |
| EnclosingMethod | ClassFile | 內部類才有這個屬性,用于標識這個類所在的外圍方法 |
| SourceDebugExtension | ClassFile | 用于存儲額外的調試信息,JDK1.6中新增 |
| BootstrapMethods | ClassFile | 用于保存invokeddynamic指令引用的引導方法限定符,JDK1.7中新增 |
| ConstantValue | field_info | final關鍵字定義的常量值 |
| Code | method_info | Java代碼編譯成的字節碼指令 |
| Exceptions | method_info | 方法拋出的異常 |
| RuntimeVisibleParameterAnnotations, RuntimeInvisibleParameterAnnotations | method_info | 指明哪些參數是運行時可見的,哪些是運行時不可見的,JDK1.5中新增 |
| AnnotationDefault | method_info | 記錄注解類元素的默認值,JDK1.5中新增的 |
| MethodParameters | method_info | 記錄方法的參數信息,比如它們的名字,訪問級別,JDK1.8新增 |
| Synthetic | ClassFile, field_info, method_info | 表示方法或字段是編譯器自動生成的 |
| Deprecated | ClassFile, field_info, method_info | 被聲明為deprecated的字段 |
| Signature | ClassFile, field_info, method_info | 用于支持泛型情況下的方法簽名,在Java語言中,如果任何類、接口、初始化方法或者成員的泛型簽名包含了類型變量或者參數化類型,則Signature屬性會為它記錄泛型簽名信息。由于Java的泛型采用擦除法實現,在為了避免類型信息被擦除后導致簽名混亂,需要這個屬性記錄泛型中的相關信息。JDK1.5中新增 |
| RuntimeVisibleAnnotations, RuntimeInvisibleAnnotations | ClassFile, field_info, method_info | 為動態注解提供支持,指明哪些是注解是運行時可見的,哪些是運行時不可見的,JDK1.5中新增 |
| LineNumberTable | Code | Java源碼的行號與字節碼指令的對應關系 |
| LocalVariableTable | Code | 方法的局部變量描述 |
| LocalVariableTypeTable | Code | 使用特征簽名代替描述符,是為了引入泛型語法之后能描述泛型參數化類型而添加,JDK1.5中新增 |
| StackMapTable | Code | 供新的類型檢查驗證器(Type Checker)檢查和處理目標方法的局部變量和操作棧所需要的類型是否匹配,JDK1.6新增 |
| RuntimeVisibleTypeAnnotations, RuntimeInvisibleTypeAnnotations | ClassFile, field_info, method_info, Code | 記錄運行時類型上注解的可見性,也包括運行時類型參數的注解的可見性 |
下面具體說一說一些比較重要的屬性:
Code屬性
首先來看Code屬性的結構:
Code_attribute {u2 attribute_name_index;u4 attribute_length;u2 max_stack;u2 max_locals;u4 code_length;u1 code[code_length];u2 exception_table_length;{ u2 start_pc;u2 end_pc;u2 handler_pc;u2 catch_type;} exception_table[exception_table_length];u2 attributes_count;attribute_info attributes[attributes_count]; }復制代碼- attribute_name_index: 占兩個字節,指向CONSTANT_Utf8_info常量,表示屬性名,這里固定是"Code"
- attribute_length:屬性值的長度,由于attribute_name_index和attribute_length占6個字節,所以attribute_length為屬性表長度減6
- max_statck: 操作數棧深度的最大值,在方法執行時,操作數棧不能超過這個值
- max_locals: 局部變量所需的存儲空間。max_locals的單位是Slot,Slot是虛擬機為局部變量分配的最小單位,對于byte,char,float,int,short,boolean和returnAddress等長度不超過32位的數據類型,都只占一個slot,而double和long 這種64為的數據都是需要占用兩個slot。方法參數(包括隱藏的this)、異常處理器的參數、方法體定義的局部變量都需要局部變量表來存放。但是max_locals并不是所有局部變量所占的slot之和,因為slot可以重用,當一個變量超出作用域了,該slot又會給別的局部變量使用,編譯器會根據作用域計算max_locals。
- code_length: 編譯器編譯后的字節碼長度
- code: 用于存儲字節碼指令的一系列字節流,每個指令是一個u1類型的單字節,當虛擬機讀到該字節時,就可以知道是什么指令,知道是什么指令,就知道指令需要什么操作數,繼續讀就可以了,這里類似于匯編,u1的取值范圍是0~255,可以表達256條指令。Java虛擬機規范中定義了約200條指令,參看Instructions。關于這部分內容以后再寫博客介紹了。
- exception_table_length:異常表的長度
- exception_table: 異常表對于Code來說并不是必須存在的,所以上述長度也可以為0,異常表有4個屬性,代表著如果在start_pc到end_pc之間出現catch_type類型的異常,就跳轉到handler_pc所指向的行處理。
Exceptions屬性
Exceptions屬性在方法表中與Code屬性平級,注意和上面Code中的異常表不同,Exceptions屬性的作用是列出方法可能拋出的異常,Exceptions屬性表的結構:
Exceptions_attribute {u2 attribute_name_index;u4 attribute_length;u2 number_of_exceptions;u2 exception_index_table[number_of_exceptions]; }復制代碼- number_of_exceptions: 可能拋出的異常種類的個數
- exception_index_table:指向常量池中CONSTANT_Class_info的索引
LineNumberTable屬性
LineNumber用來記錄Java源碼與字節碼行號之間的對應關系,我們在編譯代碼時也可以使用-g: none或-g: line來取消生成這個屬性,不過在調試代碼時就看不到行號了,也無法打斷點。
LineNumberTable的數據結構如下:
LineNumberTable_attribute {u2 attribute_name_index;u4 attribute_length;u2 line_number_table_length;{ u2 start_pc;u2 line_number; } line_number_table[line_number_table_length]; }復制代碼我們主要看line_number_table,start_pc是字節碼行號,line_number是Java源碼行號。
LocalVariableTable屬性
LocalVariableTable屬性用于描述棧幀中局部變量表中的變量與Java源碼中定義的變量之間的關系,我們在編譯代碼時也可以使用-g: none或-g: vars來取消生成這個屬性,但是如果取消的話,IDE會用arg0,arg1這樣的參數來取代原有的參數名,導致調試時不清晰。
LocalVariableTable的數據結構如下:
主要介紹local_variable_table:
- start_pc和length: 分別代表了這個局部變量的生命周期開始的字節碼偏移量以及作用范圍覆蓋的長度
- name_index和descriptor_index:分別指向代表局部變量名稱和局部變量描述符的常量
- index: 是該局部變量在局部變量表中的slot位置,如果變量時double 或者long類型的,占用的slot為index和index+1兩個。
ConstantValue屬性
ConstantValue是一個定長屬性,用來通知虛擬機為靜態變量賦值,如果同時定義了int x=3;和static int y=3;則虛擬機為x,y賦值的時機不同,對于x,是在實例構造器<init>中進行的,而static類型的變量,則會在類構造器<clinit>方法中或者使用ConstantValue屬性。
目前javac編譯器的規則是,如果同時有final和static修飾,則是使用ConstantValue屬性,只有static時,并且變量類型是基本類型或者String時,就會在<clinit>中進行初始化。
InnerClasses屬性
如果類中定義了內部類,則會使用InnerClasses屬性來記錄內部類和宿主的關系。
InnerClasses的數據結構如下:
還是只看classes字段,inner_class_info_index指向內部類的符號引用,outer_class_info_index指向宿主類的符號引用,inner_name_index指向內部類的名稱,如果是匿名內部類,則為0,inner_class_access_flags是內部類的訪問標志,見下表:
| ACC_PUBLIC | 0x0001 | Marked or implicitly public in source. |
| ACC_PRIVATE | 0x0002 | Marked private in source. |
| ACC_PROTECTED | 0x0004 | Marked protected in source. |
| ACC_STATIC | 0x0008 | Marked or implicitly static in source. |
| ACC_FINAL | 0x0010 | Marked final in source. |
| ACC_INTERFACE | 0x0200 | Was an interface in source. |
| ACC_ABSTRACT | 0x0400 | Marked or implicitly abstract in source. |
| ACC_SYNTHETIC | 0x1000 | Declared synthetic; not present in the source code. |
| ACC_ANNOTATION | 0x2000 | Declared as an annotation type. |
| ACC_ENUM | 0x4000 | Declared as an enum type. |
還有其它的一些屬性,如果想了解,可以看一下參考資料。
參考資料:
總結
以上是生活随笔為你收集整理的深入理解JVM类文件格式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Class类文件的结构
- 下一篇: MHA masterha_check_s