當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

深入了解以太坊虚拟机

發布時間：2025/3/15 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了深入了解以太坊虚拟机小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文由幣乎社區（bihu.com）內容支持計劃贊助。

譯者說，深入了解以太坊虛擬機是一個系列的文章，一共5篇！本文是第1篇，主要介紹的是以太坊虛擬機匯編代碼基礎。后續的4篇譯文鏈接在本文的結尾處。

Solidity提供了很多高級語言的抽象概念，但是這些特性讓人很難明白在運行程序的時候到底發生了什么。我閱讀了Solidity的文檔，但依舊存在著幾個基本的問題沒有弄明白。

string, bytes32, byte[], bytes之間的區別是什么？

該在什么地方使用哪個類型？
將 string 轉換成bytes時會怎么樣？可以轉換成byte[]嗎？
它們的存儲成本是多少？

EVM是如何存儲映射( mappings)的？

為什么不能刪除一個映射？
可以有映射的映射嗎？(可以，但是怎樣映射？)
為什么存在存儲映射，但是卻沒有內存映射？

編譯的合約在EVM看來是什么樣子的？

合約是如何創建的？
到底什么是構造器？
什么是 fallback 函數？

我覺得學習在以太坊虛擬機(EVM)上運行的類似Solidity 高級語言是一種很好的投資，有幾個原因：

Solidity不是最后一種語言。更好的EVM語言正在到來。（拜托？）

EVM是一個數據庫引擎。要理解智能合約是如何以任意EVM語言來工作的，就必須要明白數據是如何被組織的，被存儲的，以及如何被操作的。

知道如何成為貢獻者。以太坊的工具鏈還處于早期，理解EVM可以幫助你實現一個超棒的工具給自己和其他人使用。

智力的挑戰。EVM可以讓你有個很好的理由在密碼學、數據結構、編程語言設計的交集之間進行翱翔。

在這個系列的文章中，我會拆開一個簡單的Solidity合約，來讓大家明白它是如何以EVM字節碼(bytecode)來運行的。

我希望能夠學習以及會書寫的文章大綱：

EVM字節碼的基礎認識
不同類型(映射，數組)是如何表示的
當一個新合約創建之后會發生什么
當一個方法被調用時會發生什么
ABI如何橋接不同的EVM語言

我的最終目標是整體的理解一個編譯的Solidity合約。讓我們從閱讀一些基本的EVM字節碼開始。

EVM指令集將是一個比較有幫助的參考。

一個簡單的合約

我們的第一個合約有一個構造器和一個狀態變量：

// c1.sol pragma solidity ^0.4.11; contract C {uint256 a;function C() {a = 1;} }

用solc來編譯此合約：

$ solc --bin --asm c1.sol ======= c1.sol:C ======= EVM assembly:/* "c1.sol":26:94 contract C {... */mstore(0x40, 0x60)/* "c1.sol":59:92 function C() {... */jumpi(tag_1, iszero(callvalue))0x0dup1revert tag_1: tag_2:/* "c1.sol":84:85 1 */0x1/* "c1.sol":80:81 a */0x0/* "c1.sol":80:85 a = 1 */dup2swap1sstorepop/* "c1.sol":59:92 function C() {... */ tag_3:/* "c1.sol":26:94 contract C {... */ tag_4:dataSize(sub_0)dup1dataOffset(sub_0)0x0codecopy0x0return stop sub_0: assembly {/* "c1.sol":26:94 contract C {... */mstore(0x40, 0x60)tag_1:0x0dup1revert auxdata: 0xa165627a7a72305820af3193f6fd31031a0e0d2de1ad2c27352b1ce081b4f3c92b5650ca4dd542bb770029 } Binary: 60606040523415600e57600080fd5b5b60016000819055505b5b60368060266000396000f30060606040525b600080fd00a165627a7a72305820af3193f6fd31031a0e0d2de1ad2c27352b1ce081b4f3c92b5650ca4dd542bb770029

6060604052...這串數字就是EVM實際運行的字節碼。

一小步一小步的來

上面一半的編譯匯編是大多數Solidity程序中都會存在的樣板語句。我們稍后再來看這些。現在，我們來看看合約中獨特的部分，簡單的存儲變量賦值：

a = 1

代表這個賦值的字節碼是6001600081905550。我們把它拆成一行一條指令：

60 01 60 00 81 90 55 50

EVM本質上就是一個循環，從上到下的執行每一條命令。讓我們用相應的字節碼來注釋匯編代碼(縮進到標簽tag_2下)，來更好的看看他們之間的關聯：

tag_2:// 60 010x1// 60 000x0// 81dup2// 90swap1// 55sstore// 50pop

注意0x1在匯編代碼中實際上是push(0x1)的速記。這條指令將數值1壓入棧中。

只是盯著它依然很難明白到底發生了什么，不過不用擔心，一行一行的模擬EVM是比較簡單的。

模擬EVM

EVM是個堆棧機器。指令可能會使用棧上的數值作為參數，也會將值作為結果壓入棧中。讓我們來思考一下add操作。

假設棧上有兩個值：

[1 2]

當EVM看見了add，它會將棧頂的2項相加，然后將答案壓入棧中，結果是：

[3]

接下來，我們用[]符號來標識棧：

// 空棧 stack: [] // 有3個數據的棧，棧頂項為3，棧底項為1 stack: [3 2 1]

用{}符號來標識合約存儲器：

// 空存儲 store: {} // 數值0x1被保存在0x0的位置上 store: { 0x0 => 0x1 }

現在讓我們來看看真正的字節碼。我們將會像EVM那樣來模擬6001600081905550字節序列，并打印出每條指令的機器狀態：

// 60 01:將1壓入棧中 0x1stack: [0x1] // 60 00: 將0壓入棧中 0x0stack: [0x0 0x1] // 81: 復制棧中的第二項 dup2stack: [0x1 0x0 0x1] // 90: 交換棧頂的兩項數據 swap1stack: [0x0 0x1 0x1] // 55: 將數值0x01存儲在0x0的位置上 // 這個操作會消耗棧頂兩項數據 sstorestack: [0x1]store: { 0x0 => 0x1 } // 50: pop (丟棄棧頂數據) popstack: []store: { 0x0 => 0x1 }

最后，棧就為空棧，而存儲器里面有一項數據。

值得注意的是Solidity已經決定將狀態變量uint256 a保存在0x0的位置上。其他語言完全可以選擇將狀態變量存儲在其他的任何位置上。

6001600081905550字節序列在本質上用EVM的操作偽代碼來表示就是：

// a = 1 sstore(0x0, 0x1)

仔細觀察，你就會發現dup2，swap1，pop都是多余的，匯編代碼可以更簡單一些：

0x1 0x0 sstore

你可以模擬上面的3條指令，然后會發現他們的機器狀態結果都是一樣的：

stack: [] store: { 0x0 => 0x1 }

兩個存儲變量

讓我們再額外的增加一個相同類型的存儲變量：

// c2.sol pragma solidity ^0.4.11; contract C {uint256 a;uint256 b;function C() {a = 1;b = 2;} }

編譯之后，主要來看tag_2：

$ solc --bin --asm c2.sol //前面的代碼忽略了 tag_2:/* "c2.sol":99:100 1 */0x1/* "c2.sol":95:96 a */0x0/* "c2.sol":95:100 a = 1 */dup2swap1sstorepop/* "c2.sol":112:113 2 */0x2/* "c2.sol":108:109 b */0x1/* "c2.sol":108:113 b = 2 */dup2swap1sstorepop

匯編的偽代碼：

// a = 1 sstore(0x0, 0x1) // b = 2 sstore(0x1, 0x2)

我們可以看到兩個存儲變量的存儲位置是依次排列的，a在0x0的位置而b在0x1的位置。

存儲打包

每個存儲槽都可以存儲32個字節。如果一個變量只需要16個字節但是使用全部的32個字節會很浪費。Solidity為了高效存儲，提供了一個優化方案：如果可以的話，就將兩個小一點的數據類型進行打包然后存儲在一個存儲槽中。

我們將a和b修改成16字節的變量：

pragma solidity ^0.4.11; contract C {uint128 a;uint128 b;function C() {a = 1;b = 2;} }

編譯此合約：

$ solc --bin --asm c3.sol

產生的匯編代碼現在更加的復雜一些：

tag_2:// a = 10x10x0dup10x100expdup2sloaddup20xffffffffffffffffffffffffffffffffmulnotandswap1dup40xffffffffffffffffffffffffffffffffandmulorswap1sstorepop// b = 20x20x00x100x100expdup2sloaddup20xffffffffffffffffffffffffffffffffmulnotandswap1dup40xffffffffffffffffffffffffffffffffandmulorswap1sstorepop

上面的匯編代碼將這兩個變量打包放在一個存儲位置(0x0)上，就像這樣：

[ b ][ a ] [16 bytes / 128 bits][16 bytes / 128 bits]

進行打包的原因是因為目前最昂貴的操作就是存儲的使用：

sstore指令第一次寫入一個新位置需要花費20000 gas
sstore指令后續寫入一個已存在的位置需要花費5000 gas
sload指令的成本是500 gas
大多數的指令成本是3~10 gas

通過使用相同的存儲位置，Solidity為存儲第二個變量支付5000 gas，而不是20000 gas，節約了15000 gas。

Gas 的使用

600080547002000000000000000000000000000000006001608060020a03199091166001176001608060020a0316179055

注意0x200000000000000000000000000000000被嵌入到了字節碼中。但是編譯器也可能選擇使用exp(0x2, 0x81)指令來計算數值，這會導致更短的字節碼序列。

但結果是0x200000000000000000000000000000000比exp(0x2, 0x81)更便宜。讓我們看看與gas費用相關的信息：

一筆交易的每個零字節的數據或代碼費用為 4 gas
一筆交易的每個非零字節的數據或代碼的費用為 68 gas

來計算下兩個表示方式所花費的gas成本：

0x200000000000000000000000000000000字節碼包含了很多的0，更加的便宜。
(1 * 68) + (32 * 4) = 196
608160020a字節碼更短，但是沒有0。
5 * 68 = 340

更長的字節碼序列有很多的0，所以實際上更加的便宜！

總結

EVM的編譯器實際上不會為字節碼的大小、速度或內存高效性進行優化。相反，它會為gas的使用進行優化，這間接鼓勵了計算的排序，讓以太坊區塊鏈可以更高效一點。

我們也看到了EVM一些奇特的地方：

EVM是一個256位的機器。以32字節來處理數據是最自然的
持久存儲是相當昂貴的
Solidity編譯器會為了減少gas的使用而做出相應的優化選擇

Gas成本的設置有一點武斷，也許未來會改變。當成本改變的時候，編譯器也會做出不同的優化選擇。

本系列文章其他部分譯文鏈接：

固定長度數據類型的表示方法(第2部分)
動態數據類型的表示方法(第3部分)
ABI編碼外部方法調用的方式(第4部分)
一個新合約被創建后會發生什么(第5部分)

翻譯作者: 許莉
原文地址：Diving Into The Ethereum VM Part One

作者：Lilymoana
鏈接：https://www.jianshu.com/p/1969f3761208
來源：簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

總結

以上是生活随笔為你收集整理的深入了解以太坊虚拟机的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： android app通过Geth RP
下一篇：连接不同区块链的跨链技术介绍