當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

1 字节的 utf-8 序列的字节 1 无效_字节码文件结构详解

發布時間：2023/11/27 生活经验 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 1 字节的 utf-8 序列的字节 1 无效_字节码文件结构详解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

點擊上方“ Java資料站?”，選擇“標星公眾號”

優質文章，第一時間送達

?陳建源? |??作者

urlify.cn/INFrUr??|??來源

“一次編寫，到處運行(Write Once,Run Anywhere)“，這是 Java 誕生之時一個非常著名的口號。在學習 Java 之初，就了解到了我們所寫的.java會被編譯期編譯成.class文件之后被 JVM 加載運行。JVM 全稱為?Java Virtual Machine，一直以為 JVM 執行 Java 程序是一件理所當然的事情，但隨著工作過程中接觸到了越來越多的基于 JVM 實現的語言如Groovy?Kotlin?Scala等，就深刻的理解到了 JVM 和 Java 的無關性，JVM 運行的不是 Java 程序，而是符合 JVM 規范的.class字節碼文件。字節碼是各種不同平臺的虛擬機與所有平臺都統一使用的程序儲存格式。是構成Run Anywhere?的基石。因此了解 Class 字節碼文件對于我們開發、逆向都是十分有幫助的。

Class 類文件的結構

?概述

Class文件是一組以 8位字節為基礎單位的二進制流，各個數據項目嚴格按照順序緊湊地排列在 Class 文件中，中間沒有添加任何分隔符，這使得整個 Class 文件中存儲的內容幾乎全部是程序運行的必要數據，沒有空隙存在。當遇到需要占用 8 位字節以上空間的數據項時，則會按照Big-Endian的方式分割成若干個 8 字節進行存儲。Big-Endian具體是指最高位字節在地址最低位、最低位字節在地址最高位的順序來存儲數據。SPARC、PowerPC等處理器默認使用Big-Endian字節存儲順序，而x86等處理器則是使用了相反的Little-Endian順序來存儲數據。因此為了Class文件的保證平臺無關性，JVM必須對其規范統一。

Class 文件結構

在講解Class類文件結構之前需要先介紹兩個概念：無符號數和表。一種類似 C 語言結構體的偽結構。

無符號數：基本類型數據，一 u1、u2、u4、u8 來分別代表 1 個字節、2 個字節、4 個字節和 8 個字節的無符號數。用來描述數字、索引引用、數量值或者按照UTF-8編碼構成字符串值。
表：由多個無符號數或者其他表作為數據項構成的復合數據類型，所有的表都習慣以_info結尾，用于描述有層次關系的復合結構的數據。

當需要描述同一類型但數量不定的多個數據時，經常會使用一個前置的容量計數器加若干個連續的數據項的形式，這時就代表此類型的集合。整個 Class文件本質上就是一張表，其數據項如下偽代碼所示：

ClassFile?{
??u4??????????????magic;
??u2??????????????minor_version;
??u2??????????????major_version;
??u2??????????????constant_pool_count;
??cp_info?????????constant_pool[constant_pool_count-1];
??u2??????????????access_flags;
??u2??????????????this_class;
??u2??????????????super_class;
??u2??????????????interfaces_count;
??u2??????????????interfaces[interfaces_count];
??u2??????????????fields_count;
??field_info??????fields[fields_count];
??u2??????????????methods_count;
??method_info?????methods[methods_count];
??u2??????????????attributes_count;
??attribute_info??attributes[attributes_count];
}

每項數據項的含義我們可以對照下圖參照表：

同時我們將根據一個具體的 Java 類來分析 Class 文件結構

public?class?ByteCode?{
????private?String username;

????public?String getUsername()?{
????????return?username;
????}

????public?void?setUsername(String username)?{
????????this.username = username;
????}
}

其.class 文件內容如下：

使用?javap?命令可以得到反匯編代碼：

Classfile /Users/chenjianyuan/IdeaProjects/blog/blog-web/target/test-classes/tech/techstack/blog/ByteCode.class
??Last modified 2020-8-8; size 581 bytes
??MD5 checksum 43eb79f48927d9c5bbecfa5507de0f3c
??Compiled from "ByteCode.java"
public class tech.techstack.blog.ByteCode
??minor version: 0
??major version: 52
??flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
???#1 = Methodref #4.#21 // java/lang/Object."":()V
???#2 = Fieldref #3.#22 // tech/techstack/blog/ByteCode.username:Ljava/lang/String;
???#3 = Class #23 // tech/techstack/blog/ByteCode
???#4 = Class #24 // java/lang/Object
???#5 = Utf8 username
???#6 = Utf8 Ljava/lang/String;
???#7 = Utf8 ???#8 = Utf8 ()V???#9 = Utf8 Code??#10 = Utf8 LineNumberTable??#11 = Utf8 LocalVariableTable??#12 = Utf8 this??#13 = Utf8 Ltech/techstack/blog/ByteCode;??#14 = Utf8 getUsername??#15 = Utf8 ()Ljava/lang/String;??#16 = Utf8 setUsername??#17 = Utf8 (Ljava/lang/String;)V??#18 = Utf8 MethodParameters??#19 = Utf8 SourceFile??#20 = Utf8 ByteCode.java??#21 = NameAndType #7:#8 // "":()V??#22 = NameAndType #5:#6 // username:Ljava/lang/String;??#23 = Utf8 tech/techstack/blog/ByteCode??#24 = Utf8 java/lang/Object
{
??public tech.techstack.blog.ByteCode();
????descriptor: ()V
????flags: ACC_PUBLIC
????Code:
??????stack=1, locals=1, args_size=1
?????????0: aload_0
?????????1: invokespecial #1 // Method java/lang/Object."":()V
?????????4: return
??????LineNumberTable:
????????line 7: 0
??????LocalVariableTable:
????????Start Length Slot Name Signature
????????????0 5 0 this Ltech/techstack/blog/ByteCode;
??public java.lang.String getUsername();
????descriptor: ()Ljava/lang/String;
????flags: ACC_PUBLIC
????Code:
??????stack=1, locals=1, args_size=1
?????????0: aload_0
?????????1: getfield #2 // Field username:Ljava/lang/String;
?????????4: areturn
??????LineNumberTable:
????????line 11: 0
??????LocalVariableTable:
????????Start Length Slot Name Signature
????????????0 5 0 this Ltech/techstack/blog/ByteCode;
??public void setUsername(java.lang.String);
????descriptor: (Ljava/lang/String;)V
????flags: ACC_PUBLIC
????Code:
??????stack=2, locals=2, args_size=2
?????????0: aload_0
?????????1: aload_1
?????????2: putfield #2 // Field username:Ljava/lang/String;
?????????5: return
??????LineNumberTable:
????????line 15: 0
????????line 16: 5
??????LocalVariableTable:
????????Start Length Slot Name Signature
????????????0 6 0 this Ltech/techstack/blog/ByteCode;
????????????0 6 1 username Ljava/lang/String;
????MethodParameters:
??????Name Flags
??????username
}
SourceFile: "ByteCode.java"

magic

每個 Class 文件的頭 4 個字節0xCAFEBABE稱為魔數(Magic Number)，用來確定這個文件是否為能被虛擬機接受的 Class 文件格式。

minor_version & major_version

第 5、6 個字節為次版本號(minor_version)，第 6、7 個字節是主版本號(major version)上圖次版本號?00 00轉換為 10 進制為 0，主版本號?00 34?轉換為十進制為 52，代表 JDK 1.8。觀察反匯編代碼也能得到次版本和主版本信息。高版本的 JDK 向下兼容低版本的 Class 文件，但低版本不能運行高版本的 Class 文件，即使文件格式沒有發生任何變化，虛擬機也拒絕執行高于其版本號的 Class 文件。

constant_pool_count & constant_pool[]

后面緊跟著的 2 個字節為常量池個數(constant_pool_count),然后后面緊跟 constant_pool_count 個數的常量。constant_pool_count 是從 1 開始而不是從 0 開始，是為了將 0 項空出來標識后面某些指向常量池的索引值的數據在特定情況下不引用常量池，這種情況下就可以把索引值置為 0 來表示。(除常量池計數外，對于其他類型集合包括接口索引集合、字段表集合、方法表集合等的容量計數都與一般習慣相同，是從0開始的)

常量池(constant_pool)主要存放兩大類常量：

字面量
- 字符串常量
- final 的常量值
- 其他類文件的引用
符號引用
- 類和接口的全限定名
- 字段的名稱和描述符
- 方法的名稱和描述符

常量池中的每一個常量都是一個常量表，常量表開始的第一位是一個u1類型的標志位(tag)，來區分常量表的類型。在JDK 1.7之前共有11種結構各不相同的表結構數據，在JDK 1.7中為了更好地支持動態語言調用，又額外增加了3種(CONSTANT_MethodHandle_info、CONSTANT_MethodType_info和CONSTANT_InvokeDynamic_info)，14 中常量類型所代表的具體含義如下：

我們對其按照字面量和符號引用類型分類的話可以入下圖所示

Class文件中的常量池結構通過上例匯編代碼可看出：

Constant pool:
???#1 = Methodref #4.#21 // java/lang/Object."":()V
???#2 = Fieldref #3.#22 // tech/techstack/blog/ByteCode.username:Ljava/lang/String;
???#3 = Class #23 // tech/techstack/blog/ByteCode
???#4 = Class #24 // java/lang/Object
???#5 = Utf8 username
???#6 = Utf8 Ljava/lang/String;
???#7 = Utf8 ???#8 = Utf8 ()V???#9 = Utf8 Code??#10 = Utf8 LineNumberTable??#11 = Utf8 LocalVariableTable??#12 = Utf8 this??#13 = Utf8 Ltech/techstack/blog/ByteCode;??#14 = Utf8 getUsername??#15 = Utf8 ()Ljava/lang/String;??#16 = Utf8 setUsername??#17 = Utf8 (Ljava/lang/String;)V??#18 = Utf8 MethodParameters??#19 = Utf8 SourceFile??#20 = Utf8 ByteCode.java??#21 = NameAndType #7:#8 // "":()V??#22 = NameAndType #5:#6 // username:Ljava/lang/String;??#23 = Utf8 tech/techstack/blog/ByteCode??#24 = Utf8 java/lang/Object

觀察上面Class文件00 19表示有 25 個常量，依次往后數 24(25-1)個常量則為常量池中的常量。緊隨其后的一個字節為第一個常量表的 tag 位?0A?->?10，通過常量表類型查詢可知 10 為?CONSTANT_Methodref_info，表內數據項為u1: tag?u2: class_info?u2: name_and_type_index,結合Class文件分析，這表示從第一個常量CONSTANT_Methodref_info占用 5 個字節，其中第一個字節0A為標志位，其后兩個字節00 04?->?4?之后兩個字節為 class_info，緊隨 2 個字節00 15?->?21為 name_and_type_index。我們通過查詢匯編代碼常量池中的一個常量表為#1 = Methodref #4.#21得出一個常量表正是方法引用，其數據項索引也是#4和#21。剩下的 24 種常量分析也是如此。也是因為這 14 中常量類型各自均有自己的結構，所以說常量池是最繁瑣的數據。

小知識：
由于Class文件中方法、字段等都需要引用CONSTANT_Utf8_info型常量來描述名稱，所以CONSTANT_Utf8_info型常量的最大長度也就是Java中方法、字段名的最大長度。而這里的最大長度就是length的最大值，既u2類型能表達的最大值65535。所以Java程序中如果定義了超過64KB英文字符的變量或方法名，將會無法編譯。

access_flags

在常量池結束之后，緊接著兩個字節代表訪問標志(access_flag)這個標志用于識別一些類或接口層次的訪問信息。具體標志位以及標志的含義見下表：

invokeSpecial 指令語義在 JDK1.0.2發生過改變，為了區別這條指令使用哪種語意，在 JDK1.0.2之后編譯出來的類的這個標志都必須為真。

分析[Class]文件我們得出 access_flag 為?00 21，但是查詢上表確沒有查詢到對應的標志，這是因為?ByteCode是一個普通的 Java 類，不是接口、枚舉或者注解，被public關鍵字修飾但沒有被聲明為final和abstract，并且它使用了JDK 1.2之后的編譯器進行編譯，因此它的ACC_PUBLIC、ACC_SUPER標志應當為真，而其余 6 個標志應當為假，因此它的access_flags的值應為：0x0001|0x0020=0x0021。而我們通過?ByteCode?匯編代碼查看得到?flags: ACC_PUBLIC, ACC_SUPER?也證明了的確為上述所言。

this_class & super_class &interfaces_count & interfaces[]

類索引(this_class)、父類索引(super_class)和接口數量(interface_count)是一個 u2類型的數據，而接口索引集合 interfaces[] 是一組 u2 類型的數據的集合。這四項數據直接確定了這個類的繼承關系。Java 不允許多繼承但是允許實現多個接口，這就為什么super_class是一個而 interfaces 是一個集合。我們通過分析[Class]文件可以看出 this_class 對應00 03 -> 3?從常量池中查詢 #3 對應的常量

#3 = Class #23 // tech/techstack/blog/ByteCode
#23 = Utf8 tech/techstack/blog/ByteCode

可以看出 #3 對應的就是當前類?tech/techstack/blog/ByteCode。后面同樣為占兩個字節的 super_class 對應的``00 04 -> 4`從常量池中查詢出來對應的常量為

#4 = Class #24 // java/lang/Object
?#24 = Utf8 java/lang/Object

所以 super_class 表示的為：java/lang/Object。隨后便是 interface_count 對應的?00 00 -> 0?說明?ByteCode?沒有實現接口，因此就不存在后面的 interfaces[]。

fields_count & fields[]

字段表(field_info)用于描述接口或者類中聲明的變量。字段(field)包括類級變量以及實例級變量，但不包括在方法內部聲明的局部變量。fields_count 類中 field_info 的數量。fields[] 則是 field_info 的集合。field_info 的結構如下圖所示：

字段修飾符 access_flag 和類中的 access_flag十分相似：

在實際情況中，ACC_PUBLIC、ACC_PRIVATE、ACC_PROTECTED三個標志最多只能選擇其一，ACC_FINAL、ACC_VOLATILE不能同時選擇。接口之中的字段必須有ACC_PUBLIC、ACC_STATIC、ACC_FINAL標志。

繼續分析Class文件，00 01 00 02 00 05 00 06 00 00。其中?00 01 -> 1表示 field_count,很顯然?ByteCode?類中的字段只有一個?private String username;。參照上表繼續取兩個字節00 02 -> 2表示access_flag,查詢可知修飾符號為ACC_PRIVATE，繼續取兩個字節00 05 -> 5表示 name_index,從匯編代碼中查詢常量池#5為

#5 = Utf8 username

繼續取兩個字節00 006 -> 6表示descriptor_index,指向的是常量池 #6 的常量

#6 = Utf8 Ljava/lang/String;

后續的?00 00 -> 0表示attribute_count的個數，此處為 0。

名詞釋義:
全限定名和簡單名稱
把類名中的.替換成/，連續多個全限定名時，為了不產生混淆，在使用時最后一般都會加入一個;表示全限定名結束。
方法、字段索引描述
方法的參數列表(包括數量、類型以及順序)和返回值。根據描述符規則，基本數據類型(byte、char、double、float、int、long、short、boolean)以及代表無返回值的void類型都用一個大寫字符來表示，而對象類型則用字符L加對象的全限定名來表示。
基本數據類型
B---->byte
C---->char
D---->double
F----->float
I------>int
J------>long
S------>short
Z------>boolean
V------->void
對象類型
String------>Ljava/lang/String;
數組類型：每一個唯獨都是用一個前置 [ 來表示
int[] ------>[ I,
String [][]------>[[Ljava.lang.String;
用描述符來描述方法的,先參數列表，后返回值的格式，參數列表按照嚴格的順序放在()中
比如源碼 String getUserInfoByIdAndName(int id,String name) 的方法描述符(I,Ljava/lang/String;)Ljava/lang/String;

methods_count & methods[]

Class文件儲存格式中對方法的描述與對字段的描述幾乎采用了完全一致的方式。方法表的結構如下圖所示：

因為volatile關鍵字和transient關鍵字不能修飾方法，所以方法表的訪問標志中沒有了ACC_VOLATILE標志和ACC_TRANSIENT標志。與之相對的，synchronized、native、strictfp和abstract關鍵字可以修飾方法，所以方法表的訪問標志中增加了ACC_SYNCHRONIZED、ACC_NATIVE、ACC_STRICTFP和ACC_ABSTRACT標志：

同樣根據Class文件進行分析。00 03表示 method_count 說明ByteCode類的方法有三個，根據Method_info繼續取出第一個方法的 8 個字節00 01 00 07 00 08 00 01，00 01 -> 0表示的是方法的修飾符表示的是access_flag 為 acc_public，00 07 -> 7表示的是方法的名稱(name_index) 指向常量池中#7常量

#7 = Utf8

表示方法為的構造方法。00 08 ->8代表方法的描述符號(descriptor_index),指向常量池 #8 常量

#8 = Utf8 ()V

表示的是無參無返回值。00 01 -> 1表示有一個方法屬性的個數為 1。

根據 attribute_info 結構繼續從Class文件中取出00 09 00 00 00 2F?。00 09 -> 9表示方法屬性名稱(attribute_name_index)指向常量池 #9 常量

#9 = Utf8 Code

00 00 00 2F ->表示Code屬性的長度為 47 個字節。(特別特別需要注意這47個字節從Code屬性表中第三個開始也就是max_stack開始，因為此 attribute_info為 Code_attribute 本身，attribute_name_index 和 attribute_length 為 Code 的屬性)。

Code_attribute屬性表結構如下：

Code_attribute {
????u2 attribute_name_index; // 屬性名索引，常量值固定為"Code"
????u4 attribute_length; //屬性值長度，值為整個表的長度減去6個字節(attribute_name_index + attribute_length)
????u2 max_stack; //操作數棧深度最大值
????u2 max_locals; //局部變量表所需的存儲空間，單位為"Slot"，Slot是虛擬機為局部變量分配內存所使用的最小的單位。
????u4 code_length; // 存儲Java源程序編譯后生成的字節碼指令，每個指令為u1類型的單字節。虛擬機規范中明確限制了一個方法不允許超過65535條字節指令，實際上只用了u2長度。
????u1 code[code_length]; // 方法指向的具體指令碼
????u2 exception_table_length; // 異常表的個數
????{ u2 start_pc; // start_pc 和 end_pc 表示在 Code 數組中的[start_pc, end_pc)處指令所拋出的異常由這個表處理。
????????u2 end_pc;
????????u2 handler_pc; // 異常代碼的開始處
????????u2 catch_type; // 表示被處理流程的異常類型，指向常量池中具體的某一個異常類，catchType為 0 處理所有的異常
????} exception_table[exception_table_length]; // 異常表結構，用于存放異常信息
????u2 attributes_count; // 屬性的個數
????attribute_info attributes[attributes_count]; // 屬性的集合
}

第一個 Code 的匯編代碼如下：

Code:
??????stack=1, locals=1, args_size=1
?????????0: aload_0
?????????1: invokespecial #1??????????????????// Method java/lang/Object."":()V
?????????4: return
??????LineNumberTable:
????????line 7: 0
??????LocalVariableTable:
????????Start Length Slot Name Signature
????????????0???????5?????0??this???Ltech/techstack/blog/ByteCode;

Tips: args_size=1是因為在任何實例方法里面，都可以通過"this"關鍵字訪問到此方法所屬的對象。這個訪問機制對Java程序的編寫很重要，而它的實現卻非常簡單，僅僅是通過Javac編譯器編譯的時候把對this關鍵字的訪問轉變為對一個普通方法參數的訪問，然后在虛擬機調用實例方法時自動傳入此參數而已。因此在實例方法的局部變量表中至少會存在一個指向當前對象實例的局部變量，局部變量表中也會預留出第一個Slot位來存放對象實例的引用，方法參數值從1開始計算。

回到示例代碼，取出 47 位 Code 值：

// _ 是本文自行添加方便表示數據項之間的間隔，Class 文件中是不存在的
00 01 _00 01 _00 00 00 05 _2A B7 00 01 B1 _00 00 _00 02 _00 0A _00 00 00 06 _00 01 _00 00 _00 06 _00 0B _00 00 00 0C _00 01 00 00 00 05 00 0C 00 0D 00 00

00 01 -> 1?表示操作數棧(max_stack)的最大深度為 1。后面的00 01 -> 1表示局部變量表的長度(max_locals)為 1，正好與 Code 的匯編代碼stack=1?locals=1對應。緊接著后面 4 位00 00 00 05 -> 5表示字節碼指令長度(code_length)為 5。繼續往后數 5 位2A B7 00 01 B1表示 JVM具體的字節碼指令。

0: aload_0
?1: invokespecial #1??????????????????// Method java/lang/Object."":()V
?4: return

0x2A:對應的字節碼注記符是aload_0,作用就是把當前調用方法的棧幀中的局部變量表索引位置為0的局部變量推送到操作數棧的棧頂。
0xB7:表示是 invokespecial 調用父類的方法那么后面需要接入二個字節表示調用哪個方法，所以00 01表示的是指向常量池中第一個位置為為如下結構
1: invokespecial #1 // Method java/lang/Object."":()V

總結

以上是生活随笔為你收集整理的1 字节的 utf-8 序列的字节 1 无效_字节码文件结构详解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： activemq 开启监听_Active
下一篇： authc过滤器 shiro_shrio