http://www.deepinmind.com/jvm/2014/06/28/a-little-bit-on-jvm-and-jit.html
你或許也知道,正是JVM( Java Virtusal Machine,Java虛擬機)使得Java成為遵循“一次編寫,處處運行”的范例。JVM包括如下核心組件:
堆是你的應用程序代碼中new操作符分配內存的地方。棧存儲的是你在某個方法作用域內要進行賦值的那些本地變量。有一點需要注意的是,方法作用域內所定義的變量在方法結束后將會被刪除。比如說,一個String變量在方法內被賦值了,它的作用域是本地作用域,那么它將會被存儲到棧里,而給它所賦的值則是存儲在堆中。
持久代空間是用來存儲類及方法的數據以及應用程序中定義的靜態變量。方法區其實就是持久代空間中的一塊區域,它將會存儲所有的方法,字段,常量池的詳細數據。
JIT編譯器和代碼緩存密不可分。JVM核心會在運行時將Java字節碼解釋成匯編代碼。這個解釋的過程是非常緩慢的,因為每次執行你的應用程序的代碼時都需要將字節碼轉化成機器代碼。這就是JIT編譯器發揮作用的地方了,它會將方法編譯好然后存儲到代碼緩存中。
JIT編譯器會在運行時分析應用程序的代碼,來識別出哪些方法可以歸類為熱方法。在這里熱方法意味著代碼段會被頻繁地訪問。JIT編譯器給每個方法都分配一個計數器,以便統計它們的使用頻率。當計數器達到預定義的閾值時,這個方法會被JIT編譯器編譯成對應的匯編代碼,然后存儲到代碼緩存中。現在,當JIT需要再調用這些已經被編譯好并存儲到代碼緩存中的方法時,它不用再去解釋執行了,而是可以使用代碼緩存中已編譯好的匯編代碼。這能提升你的應用程序的執行效率,因為使用編譯好的代碼要比運行時去解釋要快得多。
當提及JIT編譯器時,由于缺少相關的文檔,有兩個主要的因素我們大多數人可能都不太了解。它們分別是:
默認使用哪個編譯器取決于對應程序運行的機器的體系結構以及JVM的版本(32位還是64位的)。我們來看下它們分別有什么作用。
客戶端編譯器在應用啟動的時候就會將你的字節碼編譯成匯編代碼。這間接意味著會增加你的應用程序的啟動時間。不過它最大的缺點在于你的代碼緩存可能很快就會用光你的內存。很多優化只有當你的程序運行了一段時間才能夠進行。不過由于客戶端編譯器已經占用了代碼緩存的空間,你可能沒有地方去存儲這些優化后的匯編代碼了。這就是服務端編譯器要勝出的地方。
服務端編譯器不像客戶端編譯器那樣,它不會在應用啟動的時候就編譯代碼。它會讓應用程序的代碼運行一段時間(這也被稱為預熱階段),然后它才會開始將字節碼編譯成匯編代碼,最終將它們存儲到代碼緩存里。
我的下一篇文章將會討論如何可以將客戶端及服務端編譯給結合起來,同時還將介紹幾個很少用到的JVM參數,但它們對提升應用的性能至關重要。
==============Java HotSpot VM中的JIT編譯
http://ifeve.com/hotspot-jit/
本文是Java HotSpot VM and just-in-time(JIT) compilation系列的第一篇。
Java HotSpot虛擬機是Oracle收購Sun時獲得的,JVM和開源的OpenJDK都是以此虛擬機為基礎發展的。如同其它虛擬機,HotSpot虛擬機為字節碼提供了一個運行時環境。實際上,它主要會做這三件事情:
- 執行方法所請求的指令和運算。
- 定位、加載和驗證新的類型(即類加載)。
- 管理應用內存。
最后兩點都是各自領域的大話題,所以這篇文章中只關注代碼執行。
JIT編譯
Java HotSpot是一個混合模式的虛擬機,也就是說它既可以解釋字節碼,又可以將代碼編譯為本地機器碼以更快的執行。通過配置-XX:+PrintCompilation參數,你可以在log文件中看到方法被JIT編譯時的信息。JIT編譯發生在運行時 —— 方法經過多次運行之后。到方法需要使用到的時候,HotSpot VM會決定如何優化這些代碼。
如果你好奇JIT編譯帶來的性能提升,可以使用-Djava.compiler=none將其關掉然后運行基準測試程序來看看它們的差別。
Java HotSpot虛擬機可以運行在兩種模式下:client或者server。你可以在JVM啟動時通過配置-client或者-server選項來選擇其中一種。兩種模式都有各自的適用場景,本文中,我們只會涉及到server模式。
兩種模式最主要的區別是server模式下會進行更激進的優化 —— 這些優化是建立在一些并不永遠為真的假設之上。一個簡單的保護條件(guard condition)會驗證這些假設是否成立,以確保優化總是正確的。如果假設不成立,Java HotSpot虛擬機將會撤銷所做的優化并退回到解釋模式。也就是說Java HotSpot虛擬機總是會先檢查優化是否仍然有效,不會因為假設不再成立而表現出錯誤的行為。
在server模式下,Java HotSpot虛擬機會默認在解釋模式下運行方法10000次才會觸發JIT編譯。可以通過虛擬機參數-XX:CompileThreshold來調整這個值。比如-XX:CompileThreshold=5000會讓觸發JIT編譯的方法運行次數減少一半。(譯者注:有關JIT觸發條件可參考《深入理解Java虛擬機》第十一章以及《Java Performance》第三章HotSpot VM JIT Compilers小節)
這可能會誘使新手將編譯閾值調整到一個非常低的值。但要抵擋住這個誘惑,因為這樣可能會降低虛擬機性能,優化后減少的方法執行時間還不足以抵消花在JIT編譯上的時間。
當Java HotSpot虛擬機能為JIT編譯收集到足夠多的統計信息時,性能會最好。當你降低編譯閾值時,Java HotSpot虛擬機可能會在非熱點代碼的編譯中花費較多時間。有些優化只有在收集到足夠多的統計信息時才會進行,所以降低編譯閾值可能導致優化效果不佳。
另外一方面,很多開發者想讓一些重要方法在編譯模式下盡快獲得更好的性能。
解決此問題一般是在進程啟動后,對代碼進行預熱以使它們被強制編譯。對于像訂單系統或者交易系統來說,重要的是要確保預熱不會產生真實的訂單。
Java HotSpot虛擬機提供了很多參數來輸出JIT的編譯信息。最常用的就是前文提到的PrintCompilation,也還有一些其它參數。
接下來我們將使用PrintCompilation來觀察Java HotSpot虛擬機在運行時編譯方法的成效。但先有必要說一下用于計時的System.nanoTime()方法。
計時方法
Java為我們提供了兩個主要的獲取時間值的方法:currentTimeMillis()和nanoTime().前者對應于我們在實體世界中看到的時間(所謂的鐘表時間),它的精度能滿足大多數情況,但不適用于低延遲的應用。
納秒計時器擁有更高的精度。這種計時器度量時間的間隔極短。1納秒是光在光纖中移動20CM所需的時間,相比之下,光通過光纖從倫敦傳送到紐約大約需要27.5毫秒。
因為納秒級的時間戳精度太高,使用不當就會產生較大誤差,因此使用時需要注意。
如,currentTimeMillis()能很好的在機器間同步,可以用于測量網絡延遲,但nanoTime()不能跨機器使用。
接下來將上面的理論付諸實踐,來看一個很簡單(但極其強大)的JIT編譯技術。
方法內聯
方法內聯是編譯器優化的關鍵手段之一。方法內聯就是把方法的代碼“復制”到發起調用的方法里,以消除方法調用。這個功能相當重要,因為調用一個小方法可能比執行該小方法的方法體耗時還多。
JIT編譯器可以進行漸進內聯,開始時內聯簡單的方法,如果可以進行其它優化時,就接著優化內聯后的較大的代碼塊。
Listing1,Listing1A以及Listing1B是個簡單的測試,將直接操作字段和通過getter/setter方法做了對比。如果簡單的getters和setters方法沒有使用內聯的話,那調用它們的代價是相當大的,因為方法調用比直接操作字段代價更高。
Listing1:
查看源代碼 打印幫助 | 02 | ????private static double timeTestRun(String desc, int runs, |
| 03 | ????????Callable<Double> callable) throws Exception { |
| 04 | ????????long start = System.nanoTime(); |
| 05 | ????????callable.call(); |
| 06 | ????????long time = System.nanoTime() - start; |
| 07 | ????????return (double) time / runs; |
| 10 | ????// Housekeeping method to provide nice uptime values for us |
| 11 | ????private static long uptime() { |
| 12 | ????????return ManagementFactory.getRuntimeMXBean().getUptime() + 15; |
| 16 | ????public static void main(String... args) throws Exception { |
| 17 | ????????int iterations = 0; |
| 18 | ????????for (int i : new int[] |
| 19 | ????????????{ 100, 1000, 5000, 9000, 10000, 11000, 13000, 20000, 100000} ) { |
| 20 | ????????????final int runs = i - iterations; |
| 21 | ????????????iterations += runs; |
| 23 | ????????????// NOTE: We return double (sum of values) from our test cases to |
| 24 | ????????????// prevent aggressive JIT compilation from eliminating the loop in |
| 25 | ????????????// unrealistic ways |
| 26 | ????????????Callable<Double> directCall = new DFACaller(runs); |
| 27 | ????????????Callable<Double> viaGetSet = new GetSetCaller(runs); |
| 29 | ????????????double time1 = timeTestRun("public fields", runs, directCall); |
| 30 | ????????????double time2 = timeTestRun("getter/setter fields", runs, viaGetSet); |
| 32 | ????????????System.out.printf("%7d %,7d\t\tfield access=%.1f ns, getter/setter=%.1f ns%n", |
| 33 | ????????????????uptime(), iterations, time1, time2); |
| 34 | ????????????// added to improve readability of the output |
| 35 | ????????????Thread.sleep(100); |
Listing1A:
查看源代碼 打印幫助 | 01 | public class DFACaller implements Callable<Double>{ |
| 02 | ????private final int runs; |
| 04 | ????public DFACaller(int runs_) { |
| 09 | ????public Double call() { |
| 10 | ????????DirectFieldAccess direct = new DirectFieldAccess(); |
| 11 | ????????double sum = 0; |
| 12 | ????????for (int i = 0; i < runs; i++) { |
| 13 | ????????????direct.one++; |
| 14 | ????????????sum += direct.one; |
| 20 | public class DirectFieldAccess { |
Listing1B:
查看源代碼 打印幫助 | 01 | public class GetSetCaller implements Callable<Double> { |
| 02 | ????private final int runs; |
| 04 | ????public GetSetCaller(int runs_) { |
| 09 | ????public Double call() { |
| 10 | ????????ViaGetSet getSet = new ViaGetSet(); |
| 11 | ????????double sum = 0; |
| 12 | ????????for (int i = 0; i < runs; i++) { |
| 13 | ????????????getSet.setOne(getSet.getOne() + 1); |
| 14 | ????????????sum += getSet.getOne(); |
| 20 | public class ViaGetSet { |
| 23 | ????public int getOne() { |
| 27 | ????public void setOne(int one) { |
| 28 | ????????this.one = one; |
如果使用java -cp. -XX:PrintCompilation Main 運行測試用例,就能看到性能上的差異(見Listing2)。
Listing2
31 1 java.lang.String::hashCode (67 bytes) 36 100 field access=1970.0 ns, getter/setter=1790.0 ns 39 2 sun.nio.cs.UTF_8$Encoder::encode (361 bytes) 42 3 java.lang.String::indexOf (87 bytes)
141 1,000 field access=16.7 ns, getter/setter=67.8 ns
245 5,000 field access=16.8 ns, getter/setter=72.8 ns
245 4 ViaGetSet::getOne (5 bytes)
348 9,000 field access=16.0 ns, getter/setter=65.3 ns
450 5 ViaGetSet::setOne (6 bytes)
450 10,000 field access=16.0 ns, getter/setter=199.0 ns
553 6 Main$1::call (51 bytes)
554 7 Main$2::call (51 bytes)
556 8 java.lang.String::charAt (33 bytes)
556 11,000 field access=1263.0 ns, getter/setter=1253.0 ns
658 13,000 field access=5.5 ns, getter/setter=1.5 ns
760 20,000 field access=0.7 ns, getter/setter=0.7 ns
862 100,000 field access=0.7 ns, getter/setter=0.7 ns
這些是什么意思?Listing2中的第一列是程序啟動到語句執行時所經過的毫秒數,第二列是方法ID(編譯后的方法)或遍歷次數。
注意:測試中沒有直接使用String和UTF_8類,但它們仍然出現在編譯的輸出中,這是因為平臺使用了它們。
從Listing2中的第二行可以發現,直接訪問字段和通過getter/setter都是比較慢的,這是因為第一次運行時包含了類加載的時間,下一行就比較快了,盡管此時還沒有任何代碼被編譯。
另外要注意下面幾點:
- 在遍歷1000和5000次時,直接操作字段比使用getter/setter方法快,因為getter 和setter還沒有內聯或優化。即便如此,它們都還相當地快。
- 在遍歷9000次時,getter方法被優化了(因為每次循環中調用了兩次),使性能有小許提高。
- 在遍歷10000次時,setter方法也被優化了,因為需要額外花費時間去優化,所以執行速度降下來了。
- 最終,兩個測試類都被優化了:
- DFACaller直接操作字段,GetSetCaller使用getter和setter方法。此時它們不僅剛被優化,還被內聯了。
- 從下一次的遍歷中可以看到,測試用例的執行時間仍不是最快的。
- 在13000次遍歷之后,兩種字段訪問方式的性能都和最后更長時間測試的結果一樣好,我們已經達到了性能的穩定狀態。
需要特別注意的是,直接訪問字段和通過getter/setter訪問在穩定狀態下的性能是基本一致的,因為方法已經被內聯到GetSetCaller中,也就是說在viaGetSet中所做的事情和directCall中完全一樣。
JIT編譯是在后臺進行的。每次可用的優化手段可能隨機器的不同而不同,甚至,同個程序的多次運行期間也可能不一樣。
總結
這篇文章中,我所描述的只是JIT編譯的冰山一角,尤其是沒有提到如何寫出好的基準測試以及如何使用統計信息以確保不會被平臺的動態性所愚弄。
這里使用的基準測試非常簡單,不適合做為真實的基準測試。在第二部分,我計劃向您展示一個真實的基準測試并繼續深入JIT編譯的過程。
與50位技術專家面對面20年技術見證,附贈技術全景圖
總結
以上是生活随笔為你收集整理的小谈JVM及JIT的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。