js反混淆还原工具_SATURN反混淆框架
本文為看雪論壇精華文章
看雪論壇作者ID:夢(mèng)野間
摘要:近幾年,軟件的混淆強(qiáng)度一直在不斷提升。基于編譯器的混淆已經(jīng)成為業(yè)界事實(shí)上的標(biāo)準(zhǔn),最近的一些論文也表明軟件的保護(hù)方式使用的是編譯器級(jí)別的混淆。
在這篇文章中,我們會(huì)介紹一個(gè)基于LLVM的通用的反混淆和混淆代碼重編譯的方式。我們會(huì)展示如何將二進(jìn)制代碼提升為編譯器中間語(yǔ)言LLVM-IR,并解釋如何使用基于編譯器級(jí)的優(yōu)化和可滿足性模理論(SMT)的迭代控制流圖控制算法[3],將混淆后的二進(jìn)制函數(shù)還原出它的控制流圖。
這一方法不會(huì)對(duì)混淆后的代碼做任何假設(shè),取而代之的是使用LLVM中的強(qiáng)編譯器級(jí)優(yōu)化以及Souper Otimizer來(lái)簡(jiǎn)化混淆。
我們的實(shí)驗(yàn)結(jié)果表明這一方法能有效的簡(jiǎn)化甚至移除開源的和商業(yè)混淆器中常用的混淆技術(shù),如Constant unfolding,基于不透明表達(dá)式的certain arithmetic,死代碼插入,虛擬控制流或是整數(shù)編碼。
恢復(fù)后的LLVM-IR能被進(jìn)一步地被其他反混淆器處理,這些其他的反混淆器和混淆時(shí)使用的技術(shù)處于同一級(jí)別,或是會(huì)被某種LLVM后端編譯到與其同一級(jí)別。這篇論文最終的成果是一個(gè)叫SATURN的反混淆工具。(圖1)
圖1:SATURN反混淆框架的流程圖
關(guān)鍵詞:逆向工程,llvm,code lifting,混淆,反混淆,靜態(tài)軟件分析,二進(jìn)制重編譯,二進(jìn)制重寫
一、簡(jiǎn)介
近些年,我們發(fā)現(xiàn)基于中間語(yǔ)言和源碼的混淆器變得越來(lái)越流行,主要是因?yàn)楦鞣N目標(biāo)架構(gòu)變得越來(lái)越多樣,尤其是移動(dòng)市場(chǎng)[11]。
傳統(tǒng)的基于二進(jìn)制的混淆方案容易受到基于模式匹配或是簡(jiǎn)單的靜態(tài)分析的攻擊,而基于中間語(yǔ)言和源代碼的混淆則難以被有效地攻擊。現(xiàn)代保護(hù)工具大多是基于 一些最先進(jìn)的框架,如LLVM,這種工具支持更復(fù)雜的混淆邏輯[11][23]。
在這篇論文中,我們會(huì)展示一種基于LLVM代碼優(yōu)化的自動(dòng)反混淆方式。這篇論文的重點(diǎn)集中在反混淆過(guò)程中需要解決的幾個(gè)問(wèn)題:將機(jī)器碼翻譯成LLVM-IR;控制流圖恢復(fù);不透明謂詞檢測(cè);反混淆;Brightening(重構(gòu)代碼以使它更具可讀性)恢復(fù)后的函數(shù)以及重編譯。
將機(jī)器碼轉(zhuǎn)為L(zhǎng)LVM-IR并不能一步到位。二進(jìn)制操作碼不僅僅會(huì)執(zhí)行操作本身,還會(huì)操作條件碼、條件標(biāo)志,它們會(huì)影響到后續(xù)的分支指令。用于將機(jī)器碼轉(zhuǎn)為類似LLVM-IR的中間語(yǔ)言的信息往往會(huì)在編譯時(shí)丟失,尤其是在處理混淆后的機(jī)器碼的時(shí)候,這一過(guò)程會(huì)更難。
其中一種解決方案是,將每一條機(jī)器碼的語(yǔ)義存儲(chǔ)到結(jié)構(gòu)體中,然后保存當(dāng)前寄存器的狀態(tài)。這是將機(jī)器碼轉(zhuǎn)為虛擬環(huán)境又不需要對(duì)代碼本身做出一些前提假設(shè)的常用方法。恢復(fù)后的LLVM-IR很實(shí)用,但是可讀性非常差。這 篇論文中我們使用了Remil[21][14]來(lái)處理這一轉(zhuǎn)化過(guò)程。
控制流混淆是一項(xiàng)用于隱藏原始函數(shù)的控制流的技術(shù)。要將函數(shù)反混淆,攻擊者必須將混淆后的代碼進(jìn)行恢復(fù)。基于LLVM-IR的現(xiàn)代混淆工具能夠?qū)刂屏鲌D進(jìn)行重度混淆。我們引入了一種算法,它使用Remill中的State結(jié)構(gòu)體來(lái)恢復(fù)提升(將機(jī)器碼轉(zhuǎn)為更高一級(jí)的語(yǔ)言,本文中指LLVM-IR,后同)后的基本塊的邊。
這些邊和提升后的基本塊構(gòu)成了恢復(fù)后的控制流圖。在提升(譯者注:lifted,意為將機(jī)器碼轉(zhuǎn)為L(zhǎng)LVM-iR)混淆后代碼的過(guò)程中,控制流圖的恢復(fù)是自動(dòng)靜態(tài)完成的。
在控制流圖的恢復(fù)過(guò)程中,相比于前人的方式([13][37][12][35][26]),我們的方法不需要任何機(jī)器碼相關(guān)的先驗(yàn)知識(shí),也不依賴函數(shù)追蹤。相反,路徑的恢復(fù)是基于部分反混淆后的基本塊以及它們的前驅(qū)塊。我們的算法和文章[3]“迭代控制流圖構(gòu)建”比較像,不過(guò)我們的更高級(jí),算法結(jié)果與分支被訪問(wèn)的順序是無(wú)關(guān)的。
隱藏控制流圖的一種方法是插入不透明謂詞(OP,opaque predicates),以使native級(jí)控制流圖重建算法失效。不透明謂詞是指插入到控制流圖中用于增加逆向難度的條件分支。不過(guò)它的條件總是固定的,因此不會(huì)影響到程序的原有邏輯[7]。
我們提出了一個(gè)檢測(cè)并移除不透明謂詞的方法。該方法基于LLVM和Souer Optimizer優(yōu)化。對(duì)于那些和編譯器優(yōu)化相沖突的不透明謂詞,我們使用SMT求解器來(lái)處理。用SMT求解器來(lái)識(shí)別不透明謂詞并不新鮮[19],但我們相信把這幾個(gè)工具和算法結(jié)合起來(lái)的方式是一種不錯(cuò)的方法。
常量折疊,基于數(shù)論的不透明表達(dá)式,死代碼,虛擬控制流和整數(shù)編碼不僅僅能在加固后的代碼中找到,它也出現(xiàn)在一些未經(jīng)混淆的代碼中。通常而言,在源代碼編譯階段,編譯器會(huì)檢測(cè)源代碼的特征并對(duì)它進(jìn)行優(yōu)化以獲得更高的執(zhí)行效率。
我們提出的方法基于LLVM-IR重構(gòu),因此,Remill將機(jī)器碼提升的方式可能會(huì)使我們難以達(dá)到最好的效果。重新生成LLVM-IR需要的步驟都是通用的,并不需要任何關(guān)于混淆器的先驗(yàn)知識(shí)。
如果不進(jìn)行brightening,LLVM-IR已經(jīng)夠用了,但本文的目標(biāo)是使提升后的函數(shù)能夠達(dá)到 vanilla(盡可能地達(dá)到與混淆和編譯前的源碼相近)狀態(tài)。
要達(dá)到這一狀態(tài),我們需要重構(gòu)原來(lái)的函數(shù)參數(shù)并基于State結(jié)構(gòu)體(代碼1)將Remill指定的函數(shù)轉(zhuǎn)換一個(gè)沒有原始簽名的LLVM函數(shù)。
struct?State {VectorReg?vec[kNumVecRegisters];ArithFlags?aflag;Flags?rflag;Segments?seg;AddressSpace?addr;GPR?gpr;X87Stack?st;MMX?mmx;FPUStatusFlags?sw;XCR0?xcr0;FPU?x87;SegmentCaches?seg_caches;
}
>>>>
1. 目標(biāo)和挑戰(zhàn)
我們想要現(xiàn)有的應(yīng)用開發(fā)一個(gè)基于LLVM及其強(qiáng)優(yōu)化的反混淆框架。在開始階段使用LLVM進(jìn)行逆向似乎過(guò)于復(fù)雜了,但它和源代碼編譯的過(guò)程很類似。LLVM編譯器框架有大量的工具可用于創(chuàng)建并修改控制流圖,基本塊和指令。真正困難的地方在于將機(jī)器碼提升為L(zhǎng)LVM-IR,并將之重構(gòu)為未經(jīng)過(guò)編譯和混淆的源代碼。要達(dá)成這一目標(biāo),這項(xiàng)技術(shù)需要是一門通用,穩(wěn)定和輕量級(jí)的技術(shù)。這一框架生成的LLVM-IR需要能夠重新被編譯和執(zhí)行。我們希望這一框架生成的LLVM-IR非常易于理解,在LLVM生態(tài)系統(tǒng)中,有大量成熟的工具可以對(duì)LLVM-IR進(jìn)行操作。我們的最終目標(biāo)是將攻擊點(diǎn)還原到它實(shí)現(xiàn)的地方——編譯級(jí)。>>>>
2. 貢獻(xiàn)
我們的貢獻(xiàn)可以總結(jié)如下:提出了一個(gè)通用的自動(dòng)化反混淆工具,足以應(yīng)用多種混淆技術(shù)。
提出了一個(gè)能夠重編譯并將LLVM-IR注入到給定二進(jìn)制程序中的框架
提出了一個(gè)高效識(shí)別LLVM-IR級(jí)的不透明謂詞的方法,然后使用編譯器級(jí)的優(yōu)化和SMT求解器處理、驗(yàn)證該方法。
提出一個(gè)使用Remill又不需要Remill的State結(jié)構(gòu)體,將機(jī)器碼轉(zhuǎn)為L(zhǎng)LVM-IR的通用方法,其中包括棧和函數(shù)參數(shù)的恢復(fù)。
我們會(huì)證明如何使用我們的框架將諸如文章[22]中的一些反符號(hào)執(zhí)行的手段弱化甚至完全移除,及將之用于源碼級(jí)的動(dòng)態(tài)符號(hào)執(zhí)行工具。
我們提出了一個(gè)框架,這個(gè)框架可以生成一個(gè)模糊約束的簡(jiǎn)潔表示,使其被更好地解析及檢查可滿足性。
>>>>
3. 討論
將混淆后的機(jī)器碼提升為L(zhǎng)LVM-IR的過(guò)程可以分為好幾步。在SATURN中,我們實(shí)現(xiàn)了幾種算法來(lái)處理混淆后的機(jī)器碼的各種情況。據(jù)我們所知,SATURN的實(shí)現(xiàn)足夠先進(jìn),它能將攻擊面從混淆后的機(jī)器碼提升到編譯器級(jí)別。我們的成果對(duì)混淆后的二進(jìn)制安全也有足夠的影響,它使得源碼級(jí)的或是IR級(jí)的動(dòng)態(tài)符號(hào)執(zhí)行工具,如KLEE,能夠進(jìn)一步地對(duì)恢復(fù)后的代碼進(jìn)行分析。我們列舉了幾個(gè)可能使代碼提升失效的小案例,以及將我們的方法用在強(qiáng)混淆的程序中的實(shí)例。二、背景>>>>
1. LLVM
LLVM最初是伊得諾大學(xué)的一項(xiàng)研究項(xiàng)目,目的是提供一種基于SSA的現(xiàn)代編譯方法[33],以使其支持任意語(yǔ)言的動(dòng)態(tài)和靜態(tài)編譯。后來(lái),LLVM逐漸發(fā)展為一個(gè)由許多子項(xiàng)目組成的大項(xiàng)目,其中許多子項(xiàng)目也被用于各種各樣的商業(yè)或開源項(xiàng)目,在學(xué)術(shù)研究中也有了廣泛的使用[16]。要理解本文的框架并不需要我們對(duì)LLVM及其中間語(yǔ)言LLVM-IR有多深的了解,但你需要知道LLVM-IR是基于靜態(tài)單賦值(SSA,Single Assignment form)[8]的,這使得它更容易被構(gòu)造成傳給SMT求解器的公式。>>>>
2.?Remill
Remill是一個(gè)將機(jī)器碼轉(zhuǎn)為L(zhǎng)LVM bitcode的靜態(tài)二進(jìn)制轉(zhuǎn)換器。它支持x86和amd64架構(gòu)。本文優(yōu)化了Remill將機(jī)器碼轉(zhuǎn)換成IR的過(guò)程。Remill并不會(huì)對(duì)棧和提升后的函數(shù)參數(shù)做任何假設(shè),因?yàn)樗腔趩沃噶畹摹?h2>>>>>3.?Souper優(yōu)化器
Souper使用起來(lái)很方便,因?yàn)樗腔贚LVM的項(xiàng)目,它使用KLEE將一系列LLVM-IR指令轉(zhuǎn)換為SMT公式,并使用SMT求解器來(lái)尋找可行的優(yōu)化。我們可以使用它的結(jié)果來(lái)確定條件分支中的不透明謂詞。它可以將SMT的查詢結(jié)果緩存起來(lái),并放入Redis數(shù)據(jù)庫(kù)中以提高性能[24]。它會(huì)生成一個(gè)由不透明謂詞和混淆特征組成的數(shù)據(jù)庫(kù),方便我們進(jìn)一步分析。>>>>
4. KLEE
KLEE是一個(gè)基于LLVM-IR的符號(hào)執(zhí)行工具,它可以自動(dòng)生成測(cè)試用例,并能在一系列復(fù)雜的和環(huán)境密集型項(xiàng)目上實(shí)現(xiàn)高覆蓋率。KLEE并不僅僅是一個(gè)用于測(cè)試軟件的工具,它也能用于還原被混淆的代碼。文章[22]的工作試圖使類似KLEE這樣的工具難以達(dá)到其預(yù)期的效果。三、動(dòng)機(jī)>>>>
1. 攻擊模型
目標(biāo):我們?cè)O(shè)想的是man-at-the-end(MATE)場(chǎng)景,即攻擊者對(duì)被保護(hù)的應(yīng)用程序擁有所有的訪問(wèn)權(quán)限,但是獲取不到源碼或是未經(jīng)保護(hù)的應(yīng)用程序。我們的攻擊模型和使用的方法和[28]相似,同時(shí)也類似于[22]。具體的說(shuō),我們主要關(guān)注下述目標(biāo):控制流圖的恢復(fù)。要理解原函數(shù)的程序邏輯,還原混淆后的控制流圖是一步非常關(guān)鍵的步驟。
不透明謂詞的檢測(cè)。只有檢測(cè)出不透明謂詞并移除它后,才能正確地還原控制流圖。
幾種混淆技術(shù)的反混淆。要使程序更具可讀性,則必須將注入的混淆后的特征代碼移除。
棧和參數(shù)的恢復(fù)。如果攻擊者能重建棧和參數(shù),那么函數(shù)代碼會(huì)變得非常簡(jiǎn)潔。
恢復(fù)后代碼的運(yùn)行。如果攻擊者能夠執(zhí)行反混淆后的代碼并保證執(zhí)行效果與未反混淆前一樣,那么就能基于此做更多的事,比如使用調(diào)試器進(jìn)行調(diào)試。
>>>>
3. 分析案例
我們先來(lái)介紹幾個(gè)在文章[22]中提到的小程序,它們使用了反符號(hào)執(zhí)行的面向路徑的保護(hù)方案。代碼2展示了一個(gè)沒有使用混淆優(yōu)化的小例子,它使用了文章[22]中提到的FOR和SPLIT來(lái)進(jìn)行反符號(hào)執(zhí)行,并額外加上了不透明謂詞來(lái)保護(hù)條件分支的計(jì)算。intfunc(charchr,charch1,charch2) {????chargarb = 0;charch = 0;// FOR trickfor(inti = 0; i < chr; i++)
????????ch++;// SPLIT trickif(ch1 > 60)
????????garb++;else
????????garb--;if(ch2 > 20)
????????garb++;else
????????garb--;// MBA based opaque predicateif((chr + ch2) == ((chr ^ ch2) + 2?* (chr & ch2)))
????????ch ^= 97;else
????????ch ^= 23;return(ch == 31);
}代碼2:基于文章[22]的小程序,使用了反符號(hào)執(zhí)行,面向路徑和FOR及SPLIT的保護(hù)方案define dso_local i32 @func(i8 signext)?local_unnamed_addr?#0?{
????%2?=icmp eq i8%0, 126
????%3?=zext i1%2to i32
????ret i32%3
}代碼3:編譯成LLVM-IR的未經(jīng)保護(hù)的小程序反符號(hào)執(zhí)行的手段不能防御編譯器級(jí)的優(yōu)化,因此在編譯時(shí)使用clang -O3級(jí)的優(yōu)化,可以輕松地將它去掉。不透明謂詞對(duì)編譯器級(jí)的優(yōu)化依然有效,只能通過(guò)SMT求解器來(lái)進(jìn)行恢復(fù)。在我們的測(cè)試用例中,我們使用clang -O0對(duì)程序進(jìn)行編譯,以防止優(yōu)化器將我們的反符號(hào)執(zhí)行優(yōu)化掉。輸出的二進(jìn)制包含幾個(gè)棧slots,需要我們?cè)谥貥?gòu)代碼時(shí)對(duì)它進(jìn)行還原。如果我們不能還原棧slots和參數(shù),那么LLVM優(yōu)化就無(wú)法生效,反符號(hào)執(zhí)行也沒辦法移除掉。如果我們成功地還原了,那么我們獲取的LLVM-IR看起來(lái)應(yīng)該和代碼3中使用clang -O3 -S -emit-llvm對(duì)未混淆的代碼編譯后,編譯出的IR相似。四、函數(shù)恢復(fù)SATURN的兩個(gè)核心功能分別是控制流圖重構(gòu)和遍歷。LLVM生態(tài)系統(tǒng)依賴于算法的強(qiáng)大和準(zhǔn)確,在開發(fā)SATURN的pass的過(guò)程中,我們使用的就是這些算法。在本節(jié)中,我們會(huì)介紹SATURN是如何對(duì)函數(shù)的機(jī)器碼進(jìn)行恢復(fù)的。
>>>>
1. 代碼提升為L(zhǎng)LVM-IR
SATURN非常依賴Remill。這也是為什么我們說(shuō)理解Remill是如何將native指令提升為L(zhǎng)LVM-IR是一件很重要的事情。Remill利用目標(biāo)體系架構(gòu)的CPU指令集來(lái)提升指令。在表1中,我們可以看到x86_64架構(gòu)中的State結(jié)構(gòu)體。為了模擬x86_64中如add rax,rcx這樣的指令,Remill會(huì)生成一個(gè)輔助函數(shù)的調(diào)用語(yǔ)句,以模擬對(duì)應(yīng)的指令。輔助函數(shù)將State結(jié)構(gòu)體作為參數(shù)(代碼4),并根據(jù)指令的語(yǔ)義計(jì)算其結(jié)果,以及修改Flags寄存器。當(dāng)基本塊中的所有指令轉(zhuǎn)為IR后,生成的調(diào)用會(huì)作為一個(gè)內(nèi)聯(lián)函數(shù)放進(jìn)調(diào)用者中。這一步中輸出的LLVM-IR可讀性還不高,但是它的功能和native指令完全一致。
Memory *__remill_basic_block(State &state, addr_t?curr_pc, Memory* →
memory);
>>>>
1.?常量
在data section中存儲(chǔ)常量是一種常見的混淆技術(shù),它可以使IDA Pro的反匯編生成錯(cuò)誤的結(jié)果或是使函數(shù)的不能被反匯編。在反混淆時(shí),SATURN會(huì)嘗試檢測(cè)這些常量的訪問(wèn)并將read指令替換為L(zhǎng)LVM-IR中的常量。全局常量的降級(jí)可以幫助LLVM優(yōu)化pass進(jìn)行常量折疊,并對(duì)抗一些類似的反混淆手段。用戶需要使用SATURN的constantPool參數(shù)來(lái)確定常量數(shù)據(jù)的地址范圍。我們的測(cè)試用例使用了幾種混淆手段,結(jié)果表明將常量存儲(chǔ)進(jìn)data section中的安全強(qiáng)度還不夠。在我們使用的混淆器中,我們可以找到用于獲取這些常量的read/write屬性。>>>>
2. 棧指針別名
在Remill中沒有棧的概念,它并沒有模擬棧,而是使用讀和寫指令(代碼5)來(lái)對(duì)棧寄存器中的地址進(jìn)行操作。棧寄存器是State結(jié)構(gòu)體的一部分,它聲明一個(gè)無(wú)符號(hào)整型,如x86_64架構(gòu)中的uint64_t State.gpr.rsp.qword。在SATURN中,對(duì)棧的訪問(wèn)是通過(guò)對(duì)IntToPtr的load/store操作來(lái)實(shí)現(xiàn)的。這使得它不可能使用LLVM中的指針別名,因?yàn)長(zhǎng)LVM不支持整型的指針別名[17]。uint_t?__remill_read_memory_(Memory *, addr_t);Memory *__remill_write_memory_(Memory *, addr_t, uint_t)代碼5:Remill中內(nèi)存讀寫指令的定義的在SATURN中,我們通過(guò)具體化表示控制流圖的函數(shù)中的棧寄存器來(lái)解決這一問(wèn)題,首先表基本塊函數(shù)內(nèi)聯(lián)并進(jìn)行優(yōu)化。在優(yōu)化期間,具體的棧寄存器值會(huì)被傳給LLVM-IR,并將IntToPtr操作數(shù)替換為一個(gè)具體的內(nèi)存地址,該具體值能幫我們確定棧。然后在控制流圖函數(shù)的開頭,為棧中空間創(chuàng)建一個(gè)全局變量和一個(gè)LLVM-IR的Alloca指令。在執(zhí)行Alloca指令之后,我們從全局變量中讀取值并將它存儲(chǔ)進(jìn)Alloca中。除此之外,還需要維護(hù)一個(gè)棧中空間,全局變量和生成的Alloca指令的映射關(guān)系。接下來(lái)基于allocas對(duì)代碼進(jìn)行進(jìn)一步的優(yōu)化,這樣在LLVM中就能使用指針別名的pass了。這些步驟可能會(huì)使我們發(fā)現(xiàn)一些新的棧空間,我們需要重復(fù)這一步驟直到?jīng)]有新的棧空間被發(fā)現(xiàn)。在完成這些步驟之后,移除無(wú)用的全局變量。在算法結(jié)束之后,某些全局變量就不能再進(jìn)行優(yōu)化了。這些全局變量代表著返回值,通過(guò)棧傳遞的函數(shù)參數(shù)和函數(shù)執(zhí)行時(shí)從棧中讀取或?qū)懭霔V械臄?shù)據(jù)。這是算法的一個(gè)副作用,不過(guò)我們可以在后面的代碼重構(gòu)和函數(shù)參數(shù)恢復(fù)這兩個(gè)反混淆步驟中使用它。棧中的指針別名是反混淆時(shí)的一個(gè) 重要特征。后續(xù)的優(yōu)化步驟需要用到這一步得到的結(jié)果,因此,它的準(zhǔn)確性就很重要了。0x146253057:learsp, [rsp-8]
0x14625305F:pushrcx
0x146253060:xchgrcx, [rsp+8]
0x146253065:movrcx, r14
0x146253068:mov[rsp+8], rcx
0x14625306D:movrcx, [rsp]
0x146253071:mov[rsp], r14
0x146253075:pushrcx
0x146253076:learcx, [rsp+8]
0x14625307B:notr14
0x14625307E:xorr14, [rcx]
0x146253081:poprcx
0x146253082:pushrbx
0x146253083:mov?ebx, 0xD4469D6E
0x146253088:pushrsi
0x146253089:mov?esi, 0xB7E07B2A
0x14625308E:add?esi,ebx
0x146253090:mov?ebx,esi
0x146253092:xor?ebx, 0x533C089A
0x146253098:mov?esi, 0xAB832EC0
0x14625309D:ror?ebx, 0x14
0x1462530A0:and?esi, 0x5B171CFB
0x1462530A6:rcl?ebx, 0x1E
0x1462530A9:or?ebx, 0xE4E97533
0x1462530AF:shld?esi,ebx, 6
0x1462530B3:rcl?ebx, 0xD
0x1462530B6:jb?0x1465C8B69代碼6:混淆后的x86_64不透明謂詞
>>>>
3. 使用LLVM-IR優(yōu)化解決不透明謂詞
SATURN解決不透明謂詞的方法分為兩步。首先,它對(duì)指令進(jìn)行切片(譯者注:即將函數(shù)中的指令切分為一個(gè)個(gè)基本塊),然后在其上應(yīng)用LLVM優(yōu)化。如果優(yōu)化成功了,這塊切片會(huì)被折疊為一個(gè)具體的值。目前已有的一些切片器([38] [5] [29])都已經(jīng)過(guò)時(shí)了,它生成的結(jié)果可能并不準(zhǔn)確。而我們的算法是基于C語(yǔ)言中切片過(guò)程建模的基礎(chǔ)上,并使用LLVM優(yōu)化來(lái)生成切片。SATURN的切片
代碼4中的Remill的基本塊定義,包含在Remill函數(shù)執(zhí)行前后,讀、寫通用寄存器需要的信息。基于Remill的基本塊,切片的過(guò)程如下所示:(1)使用符號(hào)state初始化Remill的State結(jié)構(gòu)體(2)為RIP(初始指令指針,initial instruction pointer)賦值(3)調(diào)用之前使用常量提升和棧別名pass優(yōu)化過(guò)后的不透明基本塊,這一函數(shù)調(diào)用是內(nèi)聯(lián)的。(4)將State結(jié)構(gòu)體傳給不透明基本塊(5)在基本塊執(zhí)行后,獲取其返回的State結(jié)構(gòu)體,具體地說(shuō)就是讀取最終的指令指針。extern?"C"?uint64_t?__saturn_slice_rip(State state, addr_t?curr_pc,Memory *memory, uint64_t?*Stack) {// 1 Allocate a local Remill State structure and initialize itState S;
S.gpr.rax.qword = state.gpr.rax.qword;
...
S.gpr.rsp.qword = (uint64_t) Stack;
S.gpr.r15.qword = state.gpr.r15.qword;
S.aflag.af = state.aflag.af;
...
S.aflag.zf = state.aflag.zf;// 2 Concretize RIP
S.gpr.rip.qword = curr_pc;// 3/4 Call opaque basic block with initialized State struct// This function call will be replaced with the lifted one
__remill_basic_block(S, curr_pc, memory);// 5 Inspect the value of RIPreturn
S.gpr.rip.qword;
}代碼7:SATURN的切片函數(shù)初始化和進(jìn)一步的讀取操作如代碼7所示。最后一步是獲取到生成的__saturn_slice_rip函數(shù),并使用LLVM對(duì)它進(jìn)行優(yōu)化。如果函數(shù)中使用到了不透明謂詞,而LLVM能夠?qū)⒅サ?#xff0c;函數(shù)的返回值就是一個(gè)具體的數(shù)值。這一數(shù)值就是基本塊的后續(xù)指令的地址。代碼6是一個(gè)混淆后的不透明謂詞的例子。代碼8中是我們前面這一系列步驟的結(jié)果。可以看到,函數(shù)的不透明性已經(jīng)被去除,其具體的目標(biāo)地址已經(jīng)恢復(fù)了。SATURN有兩個(gè)選項(xiàng)來(lái)控制切片時(shí),要生成的基本塊的數(shù)量。sovlerBB-Countfcc和solverBBCountReturn這兩個(gè)選項(xiàng)可以讓用戶在優(yōu)化之前,設(shè)置只有單一前驅(qū)的不透明基本塊的數(shù)量。define?dso_local?i64?@__saturn_slice_rip(%struct.State*,i64, %struct.Memory*,i64*) {entry:ret?i645475437417?; 0x1465C8B69
}代碼8:在偏移0x1465C8B69處經(jīng)過(guò)切片和優(yōu)化并恢復(fù)不透明謂詞后LLVM-IR
>>>>
4.?使用Souper和Z3處理不透明謂詞
之前的方法可能會(huì)失敗,因?yàn)長(zhǎng)LVM優(yōu)化不一定能將切片后的指令轉(zhuǎn)為常量。這也就意味著條件分支是基于強(qiáng)度更高的不透明謂詞,或是本身就是一個(gè)真實(shí)的條件分支。為了進(jìn)一步分析分支,我們使用了Souper Optimizer[27]和SMT求解器。Souper中集成的Z3引擎識(shí)別不透明謂詞的步驟如下:(1)從不透明基本塊(代碼9中的%17的值)中提取分塊后的指令。(2)將Souper要處理的表達(dá)式收集起來(lái)。(3)從這些表達(dá)式中選取與分片后的指令對(duì)應(yīng)的表達(dá)式(4)使用SMT獲取分片指令表達(dá)式的解(5)如果沒有滿足條件的解,那么說(shuō)明在之前的步驟中有錯(cuò)誤,LLVM的pass會(huì)失敗(6)如果解存在,我們就已經(jīng)找到了一個(gè)正確的解,我們需要再進(jìn)行一次SMT求解的過(guò)程,以此判斷當(dāng)前的解是否是唯一解,如代碼10所示。(7)如果第二次求解仍然有解,這說(shuō)明這一條件分支是一個(gè)不透明謂詞,它的真實(shí)目標(biāo)地址就可以確定了。(8)如果第二次無(wú)解,說(shuō)明這是一個(gè)真實(shí)的條件分支,或是SMT求解器無(wú)法確定是不是不透明謂詞。define i64 @__saturn_slice_rip(%struct.State.32* %state,i64 %curr_pc, %struct.Memory* %memory,i64 * %Stack)#2 {entry:
????%0?=getelementptr inbounds%struct.State.32, %struct.State.32* %state,i64 0,i32 6,i32 17,i32 0,i32 0
????%1?=load i64 ,i64 * %0, align 8, !tbaa !9
????%2?=getelementptr inbounds%struct.State.32, %struct.State.32* %state,i64 0,i32 6,i32 19,i32 0,i32 0
????%3?=load i64 ,i64 * %2, align 8, !tbaa !9
????%4?=shl i64 %1, 56
????%5?=ashr exact i64 %4, 56
????%6?=add?i64 %5, %3
????%7?=xor i64 %3, %1
????%8?=shl i64 %7, 56
????%9?=ashr exact i64 %8, 56
????%10?=and i64 %3, %1
????%11?=shl i64 %10, 56
????%12?=ashr exact i64 %11, 55
????%13?=add?nsw i64 %12, %9
????%14?=trunc i64 %6to i32
????%15?=trunc i64 %13to i32
????%16?=icmp eq i32 %14, %15
????%17?=select?i1%16, i64 5368713261,i64 5368713259
????ret i64 %17
}代碼9:demo分片后的MBA(set-logic QF_BV )
(declare-fun arr () (_ BitVec 8) )
(declare-fun arr0 () (_ BitVec 8) )
(assert (let ( (?B1 arr0 ) (?B2 arr ) ) (let ( (?B3 ((_ sign_extend24) ?B1 ) ) (?B4 ((_ sign_extend 24) ?B2 ) ) (?B5 (bvand ?
????B2 ?B1 ) ) (?B6 (bvxor ?B2 ?B1 ) ) ) (let ( (?B11 ((_
????sign_extend 24) ?B6 ) ) (?B10 ((_ sign_extend 24) ?B5 ) )
????(?B8 (bvadd ?B4 ?B3 ) ) (?B9 (bvashr ?B4 (_ bv31 32) ) ) (?
????B7 (bvashr ?B3 (_ bv31 32) ) ) ) (let ( (?B14 ((_ extract?00) ?B9 ) ) (?B12 ((_ extract?0?0) ?B7 ) ) (?B15 (bvshl ?
????B10 (_ bv1 32) ) ) (?B13 (bvashr ?B8 (_ bv31 32) ) ) (?B16
????(bvashr ?B11 (_ bv31 32) ) ) ) (let ( (?B17 ((_ extract?00) ?B13 ) ) (?B22 ((_ extract?0?0) ?B16 ) ) (?B19 (bvadd ?
????B15 ?B11 ) ) (?B20 (bvashr ?B15 (_ bv31 32) ) ) (?B21 (
????bvashr ?B15 (_ bv1 32) ) ) (?B18 (= ?B14 ?B12 ) ) ) (let (
????(?B27 ((_ extract?0?0) ?B20 ) ) (?B25 (bvashr ?B19 (_ bv3132) ) ) (?B23 (= ?B17 ?B14 ) ) (?B28 (= ?B21 ?B10 ) ) (?B24
????(=false?B18 ) ) (?B26 (= ?B19 ?B8 ) ) ) (let ( (?B31 (
????ite ?B26 (_ bv5368713423 64) (_ bv5368713442 64) ) ) (?B30
????((_ extract?0?0) ?B25 ) ) (?B29 (or?B24 ?B23 ) ) (?B32 (=
?????B27 ?B22 ) ) ) (let ( (?B35 (=false?B32 ) ) (?B33 (= ?
????B30 ?B27 ) ) (?B34 (= (_ bv5368713423 64) ?B31 ) ) ) (let (
????(?B36 (or?B35 ?B33 ) ) ) (let ( (?B37 (and?B36 ?B28 ) )
????) (let ( (?B38 (and?B37 ?B29 ) ) ) (let ( (?B39 (=false?
????B38 ) ) ) (let ( (?B40 (or?B39 ?B34 ) ) ) (and?B38 (=false?B34 ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) )
(check-sat)
(exit)代碼10:Z3的SMT中求解demo中的不透明謂詞的過(guò)程六、重編譯SATURN不僅 可以提升并反混淆代碼,它還會(huì)重編譯LLVM-IR,使之可以正常運(yùn)行。這一節(jié)中我們會(huì)介紹SATURN中是怎么處理要重編譯的代碼,使其結(jié)果和vanilla中的結(jié)果類似。
>>>>
1. IR優(yōu)化
當(dāng)混淆函數(shù)被恢復(fù)后,SATURN就會(huì)進(jìn)入IR優(yōu)化階段,它使用圖2中的控制流圖函數(shù)作為輸入,具體步驟如下:(1)對(duì)State中的棧寄存器(RSP)和指令寄存器(RIP)賦值(2)創(chuàng)建allocas用于標(biāo)志寄存器的計(jì)算,并將結(jié)果存至State結(jié)構(gòu)體中,這有助于優(yōu)化掉不必要的標(biāo)志寄存器的計(jì)算(3)像圖2那樣內(nèi)聯(lián)基本塊函數(shù)(4)對(duì)這一函數(shù)進(jìn)行LLVM優(yōu)化(5)對(duì)這一函數(shù)進(jìn)行常量提升算法(節(jié)5.1)和棧別名分析(節(jié)5.2)。(6)重復(fù)2-4步驟直到不再發(fā)生變化。在上述優(yōu)化完成后,輸出的LLVM-IR不會(huì)再有混淆,但是,如代碼11所示,因?yàn)閷?duì)Remill的State結(jié)構(gòu)體做了一些操作,我們?nèi)匀浑y以理解它的代碼邏輯。在這一步中,對(duì)寄存器的賦值可以去掉了,可以使用LLVM的后端將LLVM-IR重新編譯成機(jī)器碼。例子中,我們使用Clang將LLVM-IR編譯成Shared Object,SATURN有兩種方式來(lái)重編譯LLVM-IR。第一種是使用如代碼4中的Remill簽名。創(chuàng)建的C++輔助函數(shù)會(huì)將x86_64環(huán)境轉(zhuǎn)成虛擬環(huán)境,并管理State結(jié)構(gòu)體。第二種是恢復(fù)原函數(shù)的參數(shù),并移除State結(jié)構(gòu)體。這種方法的好處是,方法可以被直接調(diào)用而不需要環(huán)境切換。它的細(xì)節(jié)在節(jié)6.2會(huì)具體介紹。
>>>>
2. 代碼重構(gòu)
Remill提升后的函數(shù)運(yùn)行在虛擬環(huán)境中(代碼11),也就是State結(jié)構(gòu)體。這使得一些優(yōu)化難以進(jìn)行,因?yàn)樗仨殞⒔Y(jié)果存儲(chǔ)在State結(jié)構(gòu)體的寄存器中。這一操作發(fā)生在代碼11中介紹的所有寄存器中。此時(shí)輸出的代碼仍然難以被進(jìn)一步地分析。這一節(jié)中,我們會(huì)解決這個(gè)問(wèn)題,并展示如何重構(gòu)原始的函數(shù)簽名,包括函數(shù)參數(shù)的恢復(fù),State結(jié)構(gòu)體的移除。(它會(huì)使得生成的結(jié)果和vanilla相似)函數(shù)參數(shù)
基于5.2節(jié)的算法,提升后的函數(shù)參數(shù)是通過(guò)棧來(lái)傳遞的,它可以通過(guò)全局變量來(lái)進(jìn)行讀取。在節(jié)5.2算法執(zhí)行的過(guò)程中,SATURN會(huì)追蹤全局變量和他們的棧偏移,這些信息可以用于確定參數(shù)的數(shù)量,函數(shù)使用的ABI和函數(shù)調(diào)用約定。如果函數(shù)沒有棧參數(shù),我們通過(guò)訪問(wèn)State結(jié)構(gòu)體來(lái)確定參數(shù)的數(shù)量。我們只關(guān)注通用寄存器的重構(gòu),具體步驟如下:define dllexport i64 @F_140001000(%struct.State.32* %S,i64 %curr_pc,%struct.Memory.0* %memory) {entry:
????%0?=getelementptr inbounds%struct.State.32, %struct.State.32* %S,i64 0,i32 6,i32 33,i32 0,i32 0
????%1?=getelementptr inbounds%struct.State.32, %struct.State.32* %S,i64 0,i32 13
????store i80,i8* %1, align 1
????%2?=getelementptr inbounds%struct.State.32, %struct.State.32* %S,i64 0,i32 6,i32 5,i32 0
????%3?=bitcast%union.anon.2* %2to i8*
????%4?=getelementptr inbounds%struct.State.32, %struct.State.32* %S,i64 0,i32 6,i32 17,i32 0
????%5?=bitcast%union.anon.2* %4to i8*
????%6?=load i8,i8* %5, align 1
????%7?=load i8,i8* %3, align 1
????store i64 5368713251,i64 * %0, align 8
????%8?=sext i8%7to i64
????%phitmp =icmp eq i8%7, 126
????%9?=getelementptr inbounds%struct.State.32, %struct.State.32* %S,i64 0,i32 6,i32 1,i32 0,i32 0
????%10?=getelementptr inbounds%struct.State.32, %struct.State.32* %S,i64 0,i32 6,i32 5,i32 0,i32 0
????%11?=sext i8%6to i64
????%12?=and i64 %11, 4294967295
????store i64 5368713372,i64 * %0, align 8
????%13?=getelementptr inbounds%struct.State.32, %struct.State.32* %S,i64 0,i32 6,i32 7,i32 0,i32 0
????%14?=xor i8%7, %6
????%15?=sext i8%14to i64
????%16?=getelementptr inbounds%struct.State.32, %struct.State.32* %S,i64 0,i32 6,i32 17,i32 0,i32 0
????store i64 %12,i64 * %16, align 8
????%17?=and i64 %12, %8
????%18?=shl nuw nsw i64 %17, 1
????%19?=and i64 %18, 4294967294
????store i64 %19,i64 * %13, align 8
????%20?=add nsw i64 %18, %15
????%21?=and i64 %20, 4294967295
????store i64 %21,i64 * %10, align 8
????store i80,i8* %1, align 1
????%22?= zext i1%phitmpto i8store i8%22,i8* %3, align 1
????%23?= zext i1%phitmpto i64
????store i64 %23,i64 * %9, align 8
ret i64 %23}代碼11:從Remill的State結(jié)構(gòu)體中恢復(fù)出的demo的LLVM-IR(1)基于函數(shù)的調(diào)用約定,從函數(shù)的最后一個(gè)寄存器參數(shù)開始[18],尋找第一條getElementPtr(GEP)指令,這條指令可以用來(lái)訪問(wèn)寄存器,同時(shí)它也控制著其他的GEP指令(2)如果沒找到GEP指令,繼續(xù)找下一個(gè)寄存器,并使參數(shù)數(shù)量減1(3)如果找到了GEP指令,向前滑動(dòng)GEP的值,以尋找GEP指令的引用樹。(4)根據(jù)這些引用在函數(shù)中的支配樹(DT,dominance tree)的位置排序。(5)尋找讀和寫指令以確定GEP的用法。(6)如果找到了讀、寫指令,就假設(shè)這個(gè)寄存器是一個(gè)參數(shù)(7)否則,將參數(shù)數(shù)量減1,繼續(xù)步驟3
函數(shù)重構(gòu)
基于恢復(fù)操作獲取到的參數(shù)數(shù)量,去掉State結(jié)構(gòu)體,重構(gòu)提升后的函數(shù)。我們使用C/C++中的輔助函數(shù)來(lái)幫助我們將函數(shù)參數(shù)與它們的State中的位置對(duì)應(yīng)起來(lái),如代碼12所示:extern?"C"?Memory * F_Lifted(State &state, addr_t?curr_pc, Memory *memory);extern"C"?uint64_t?x64_MS_2_ARG(uint64_t?*RCX, uint64_t?*RDX) {struct?State?S;// Set 1. argS.gpr.rcx.qword = (uint64_t) RCX;// Set 2. arg
S.gpr.rdx.qword = (uint64_t) RDX;// Call lifted function which will be replaced and inlined
F_Lifted(S, 0, nullptr);// Return resultreturn?S.gpr.rax.qword;
}代碼12:SATURN中用于處理windows64位的ABI中2個(gè)參數(shù)的ABI函數(shù)的C/C++輔助函數(shù)我們只需要基于參數(shù)準(zhǔn)備好寄存器輔助函數(shù),對(duì)于將參數(shù)傳遞到棧上的函數(shù),我們只需要將新的參數(shù)添加到LLVM-IR的輔助函數(shù)中并替換所有的全局變量引用,將這些全局變量表示為新創(chuàng)建的函數(shù)參數(shù)。后續(xù)操作就與參數(shù)數(shù)量無(wú)關(guān)了:(1)找到F_Lifted偽函數(shù)的調(diào)用(2)將F_Lifted的引用替換為提升后的IR函數(shù)(3)將調(diào)用內(nèi)聯(lián)進(jìn)輔助函數(shù)中(4)使用LLVM進(jìn)行強(qiáng)優(yōu)化基于LLVM的優(yōu)化,我們可以獲取到一個(gè)簡(jiǎn)潔的LLVM-IR函數(shù),它看起來(lái)和代碼13中的vanilla很像。如果我們將輸入的LLVM-IR和代碼13中的結(jié)果相比較,可以發(fā)現(xiàn)LLVM是有多么的強(qiáng)大。define dllexport i64 @F_140001000_args(i64* %RCX,i64* %RDX,i64* %R8) {
entry:
????%0?=ptrtoint i64* %RCXto i64
????%1?=trunc?i64%0to?i8
????%2?=icmp eq i8%1, 126
????%3?=zext i1%2to?i64ret?i64%3
}代碼13:恢復(fù)參數(shù)后優(yōu)化后的MBA LLVM-IR函數(shù)- End -
看雪ID:夢(mèng)野間
https://bbs.pediy.com/user-706972.htm?
*本文由看雪翻譯小組 夢(mèng)野間 編譯,lumon 校對(duì)。推薦文章++++
*?CVE-2017-11882理論以及實(shí)戰(zhàn)樣本分析
*?惡意代碼分析之 RC4 算法學(xué)習(xí)
*?CVE-2017-0101-Win32k提權(quán)分析筆記
*?ROPEmporium全解
*?實(shí)戰(zhàn)棧溢出漏洞
好書推薦
﹀﹀﹀公眾號(hào)ID:ikanxue官方微博:看雪安全商務(wù)合作:wsc@kanxue.com戳總結(jié)
以上是生活随笔為你收集整理的js反混淆还原工具_SATURN反混淆框架的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 计算机基础的函数公式,大学计算机基础 e
- 下一篇: 大学生创新创业训练计划讲解(大创)