日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

自己动手利用KVM和Intel VT实现简单虚拟机

發(fā)布時(shí)間:2025/3/15 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自己动手利用KVM和Intel VT实现简单虚拟机 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

自己動(dòng)手利用KVM和IntelVT實(shí)現(xiàn)簡(jiǎn)單虛擬機(jī)

計(jì)劃開發(fā)一套虛擬機(jī)最小系統(tǒng)。該原型系統(tǒng)會(huì)利用Linux原生提供的內(nèi)核模塊kvm.ko,使用該模塊提供的API接口,自行開發(fā)一個(gè)用戶態(tài)程序,實(shí)現(xiàn)一個(gè)最基本的虛擬機(jī)。

這個(gè)虛擬機(jī)能夠運(yùn)行一段x86指令代碼,例如簡(jiǎn)單的算術(shù)運(yùn)算,最終能夠?qū)⑦\(yùn)算結(jié)果通過IO端口寫入客戶機(jī)的串口設(shè)備中。這套最小系統(tǒng)能夠模擬一個(gè)串口設(shè)備,將客戶機(jī)串口設(shè)備中的數(shù)據(jù)顯示在終端屏幕上。

本章是開發(fā)實(shí)踐的基礎(chǔ)章節(jié),通過自己動(dòng)手實(shí)踐本章提供的源代碼,能夠?yàn)楹罄m(xù)高階內(nèi)容打下堅(jiān)實(shí)的基礎(chǔ)。在動(dòng)手開發(fā)之前,建議讀者具備如下技術(shù)能力,在本章最后會(huì)列出建議的學(xué)習(xí)資料。

  • 能夠編寫和調(diào)試簡(jiǎn)單的c語(yǔ)言代碼
  • 能夠讀懂x86匯編指令中的算術(shù)指令
  • 通過本章的學(xué)習(xí),能夠掌握如下核心技術(shù)能力:

  • 熟悉虛擬化開發(fā)環(huán)境,具備在用戶態(tài)調(diào)試虛擬化程序的能力。
  • 了解KVM內(nèi)核API,并能夠使用其中最基本的API搭建一個(gè)最小化的虛擬機(jī)系統(tǒng)。
  • 了解串口設(shè)備的模擬方式,能夠?qū)崿F(xiàn)客戶機(jī)與主機(jī)的信息傳遞。
  • 開發(fā)調(diào)試環(huán)境準(zhǔn)備

    本節(jié)介紹開發(fā)調(diào)試環(huán)境的準(zhǔn)備工作,包括硬件和軟件的版本,操作系統(tǒng)的選型,本書的全部源代碼均在這套開發(fā)環(huán)境下編譯和運(yùn)行。

    硬件環(huán)境

    x86架構(gòu)的硬件虛擬化技術(shù)主要有兩種,分屬Intel和AMD兩大陣營(yíng)。Intel開發(fā)出了Intel Virtualization Technology (Intel VT-x),AMD開發(fā)的是AMD Secure Virtual Machine(AMD SVM)。鑒于Intel CPU廣泛用于PC、筆記本和服務(wù)器市場(chǎng),考慮到用于實(shí)驗(yàn)的硬件設(shè)備需要容易獲取,讀者掌握技術(shù)后能夠廣泛實(shí)踐,本書主要以Intel的硬件虛擬化技術(shù)為基礎(chǔ)進(jìn)行講解和分析。

    基本要求:

  • CPU: Intel CPU, 64位,支持Intel VT-x。
  • BIOS: 需要在BIOS中支持并能夠開啟Intel VT。
  • 內(nèi)存: 至少4G。
  • 磁盤: 32G 磁盤空間。
  • 目前市面主流的PC、筆記本搭載的Intel CPU都能滿足實(shí)驗(yàn)的要求。對(duì)于具體型號(hào)的CPU可以通過訪問:https://ark.intel.com?查看CPU的具體參數(shù),其中Advanced Technologies中列出了Intel? Virtualization Technology (VT-x)的支持情況。另外和Intel VT相關(guān)的幾個(gè)技術(shù),最好也能夠支持,其中包括Intel? Virtualization Technology for Directed I/O (VT-d)和Intel? VT-x with Extended Page Tables (EPT),這兩個(gè)技術(shù)能夠在處理IO請(qǐng)求和頁(yè)表映射時(shí)提供加速能力,可以作為高級(jí)功能進(jìn)行探索和學(xué)習(xí)。

    處理最基本的配置,這里列出作者在編寫本書時(shí)用到的硬件配置。作者使用的是聯(lián)想Thinkpad T440S筆記本電腦,具體配置如下,該款筆記本已經(jīng)停產(chǎn),理論上后續(xù)的搭載了Intel CPU的Thinkpad系列都是支持Intel VT-x的。

    作者配置: 1. CPU:Intel?Core? i5-4210U @1.70GHz。 2. BIOS: 需要在BIOS中支持并開啟Inte VT。 3. 內(nèi)存:8G內(nèi)存。 4. 磁盤:250 SSD磁盤。

    在Intel 官網(wǎng)上的CPU參數(shù)介紹中這顆i5的CPU是支持Intel VT-x技術(shù)的。

    https://ark.intel.com/content/www/us/en/ark/products/81016/intel-core-i5-4210u-processor-3m-cache-up-to-2-70-ghz.html

    在BIOS中開啟Intel VT的方法如下,在開機(jī)啟動(dòng)時(shí),進(jìn)入BIOS設(shè)置界面,作者的筆記本是按F1鍵,在BIOS設(shè)置界面菜單中選擇Security,在子菜單中選擇Virtualization, 進(jìn)入子菜單后,將Intel (R) Virtualization Technology下的選項(xiàng)設(shè)置為[Enabled]。

    操作系統(tǒng)

    本書的操作系統(tǒng)使用Linux系統(tǒng),并且需要直接安裝在上一小節(jié)介紹的硬件之上,不能使用虛擬機(jī)進(jìn)行運(yùn)行和調(diào)試。因?yàn)樘摂M化開發(fā)涉及很多直接同CPU、網(wǎng)卡和內(nèi)存等硬件直接交互的情況,虛擬機(jī)模擬出的客戶機(jī)在一些硬件模擬上,無(wú)法達(dá)到完全同真實(shí)硬件一致,而處理這些細(xì)微差異會(huì)分散學(xué)習(xí)精力,所以在本書的學(xué)習(xí)過程中,作者建議直接在真實(shí)硬件上進(jìn)行開發(fā)、運(yùn)行和調(diào)試。對(duì)于用戶態(tài)程序來(lái)說(shuō),在真實(shí)硬件上開發(fā)和在虛擬機(jī)中開發(fā),差別不大,但是對(duì)于后續(xù)的內(nèi)核模塊開發(fā),一個(gè)微小的錯(cuò)誤就很容易引起系統(tǒng)panic,有可能導(dǎo)致文件系統(tǒng)的損害,造成開發(fā)代碼的丟失。后續(xù)章節(jié)會(huì)深入介紹內(nèi)核模塊的真機(jī)開發(fā)和調(diào)試經(jīng)驗(yàn)。

    作者具體使用的操作系統(tǒng)是 Centos 7.6 X86_64 1810版,最小化安裝,只有命令行環(huán)境,沒有安裝GUI界面環(huán)境,目的是最小限度安裝所需的軟件,避免對(duì)系統(tǒng)開發(fā)造成不必要的干擾。

    使用的Linux內(nèi)核是有兩套,一套是官方自帶的標(biāo)準(zhǔn)內(nèi)核,該內(nèi)核包含了CentOS提供的內(nèi)核補(bǔ)丁,解決了很多安全性和穩(wěn)定性問題。

    Linux diykvm 3.10.0-957.el7.x86_64 #1 SMP Thu Nov 8 23:39:32 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux

    另一套是基于Linux原生4.4.2編譯出的內(nèi)核,該內(nèi)核沒有添加任何補(bǔ)丁,在后續(xù)章節(jié)中會(huì)對(duì)自編譯內(nèi)核進(jìn)行調(diào)試和分析。內(nèi)核的編譯和調(diào)試技術(shù)會(huì)在后續(xù)章節(jié)進(jìn)行介紹。

    Linux diykvm 4.4.2 #1 SMP Sat Jun 15 13:53:34 CST 2019 x86_64 x86_64 x86_64 GNU/Linux

    讀者可以從如下官網(wǎng)鏈接處下載CentOS操作系統(tǒng),自行安裝到開發(fā)機(jī)上。

    http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1810.iso

    選擇CentOS作為開發(fā)環(huán)境的操作系統(tǒng),主要考慮到CentOS相對(duì)于Ubuntu來(lái)說(shuō),廣泛應(yīng)用于生產(chǎn)環(huán)境,在穩(wěn)定性方面表現(xiàn)更出色,但是不足之處是CentOS官方的軟件源支持的軟件相對(duì)較少,版本也比較低。為了克服這些不足,后續(xù)開發(fā)過程中會(huì)針對(duì)一些軟件,直接使用源代碼進(jìn)行編譯。

    下圖是CentOS的安裝界面,選擇最小化模式安裝。

    開發(fā)工具

    虛擬化開發(fā)技術(shù)主要涉及系統(tǒng)底層技術(shù),以C語(yǔ)言和匯編語(yǔ)言為主,使用的開發(fā)工具以gcc和nasm為主,其中g(shù)cc負(fù)責(zé)c語(yǔ)言的編譯,nasm負(fù)責(zé)匯編語(yǔ)言的編譯。其次會(huì)使用gdb進(jìn)行程序的調(diào)試和分析,在后續(xù)章節(jié)中,會(huì)介紹使用kgdb進(jìn)行內(nèi)核調(diào)試的技術(shù)要點(diǎn)。所有開發(fā)工具均通過CentOS官方的yum源進(jìn)行安裝,如下是關(guān)鍵開發(fā)工具的版本和用途介紹。

  • gcc-4.8.5,用于編譯c語(yǔ)言源代碼。
  • nasm-2.10.07,用于編譯匯編代碼。
  • git-1.8.3.1,用于獲取開源軟件的源代碼。
  • vim-7.4.1099,作為開發(fā)代碼編輯器。
  • GNU gdb (GDB) Red Hat Enterprise Linux 7.6.1-114.el7, 用于調(diào)試程序。
  • 源代碼src/init/init.sh提供一份開發(fā)環(huán)境初始化配置腳本,用于全部開發(fā)工具的初始化安裝。

    #!/bin/sh # Project: DIY KVM 1.0 # Description: Development Init script # Date: 2019.07.28 yum makecache # install dev tools yum install -y dosfstools vim net-tools git unzip zip strace yum group install -y "Development Tools" yum install -y epel-release # install qemu and libvirt yum install -y qemu-kvm qemu-img libvirt libvirt-python libvirt-client virt-install bridge-utils libguestfs-tools yum --disablerepo=epel -y install qemu-guest-agent systemctl start libvirtd systemctl enable libvirtd # install kernel debuginfo yum --enablerepo=base-debuginfo install -y kernel-debuginfo-$(uname -r) yum install -y kernel-devel

    匯編語(yǔ)言

    虛擬化開發(fā)涉及硬件底層技術(shù),在一些情況下,使用匯編語(yǔ)言比C語(yǔ)言更適合,這里針對(duì)本書涉及的匯編知識(shí),進(jìn)行一個(gè)簡(jiǎn)介,內(nèi)容更偏向于實(shí)用,對(duì)于系統(tǒng)性的匯編語(yǔ)言知識(shí),請(qǐng)參考本章最后的學(xué)習(xí)資料。

    匯編語(yǔ)言是一種用于直接操作CPU和內(nèi)存的低級(jí)語(yǔ)言,作用是用一系列助記符來(lái)代替和表示CPU的特定指令, 每一條匯編代碼對(duì)應(yīng)一條或多條機(jī)器指令,省去了人工查詢機(jī)器碼的繁瑣。

    如今隨著技術(shù)發(fā)展,程序員已經(jīng)不需要使用匯編語(yǔ)言來(lái)開發(fā)程序,但是能夠讀懂甚至編寫匯編語(yǔ)言仍然是程序員的高級(jí)技能。例如需要精確編寫每一條機(jī)器指令,嚴(yán)格控制CPU運(yùn)行邏輯時(shí),只有匯編語(yǔ)言能夠擔(dān)當(dāng)重任。另外對(duì)編譯后的二進(jìn)制代碼進(jìn)行分析和調(diào)試,這種情況下,由于程序缺少了必要的信息,無(wú)法被還原成高級(jí)語(yǔ)言,就需要借助反編譯工具,將程序反編譯成匯編代碼,再進(jìn)行后續(xù)的分析。

    匯編語(yǔ)言有兩大主流語(yǔ)法風(fēng)格,分別是Intel風(fēng)格和AT&T風(fēng)格。前者多用于Visual C++的匯編工具中,后者用于gcc的匯編工具中。下面將分別使用c語(yǔ)言和這兩種風(fēng)格的匯編語(yǔ)法,編寫一個(gè)兩數(shù)相加的程序。在C語(yǔ)言中是兩個(gè)變量相加,在匯編語(yǔ)言中,是兩個(gè)寄存器rax和rbx相加,最終通過Linux系統(tǒng)調(diào)用顯示在終端的標(biāo)準(zhǔn)輸出上。這里除了通過介紹兩數(shù)相加的程序讓讀者熟悉匯編語(yǔ)言,另外本節(jié)的虛擬機(jī)最小系統(tǒng)中,客戶機(jī)的代碼會(huì)以這個(gè)兩數(shù)相加程序作為模板。

  • C語(yǔ)言
  • /** Project: DIY KVM 1.0* Description: a+b* Date: 2019.07.28* Path: src/basic/01_add/c/add.c* */ #include <unistd.h> #include <sys/syscall.h>int main(){int a=1;int b=1;a = a+b;char ans[2];ans[0]=a+'0';ans[1]='\n';syscall(SYS_write,1,ans,2);return 0; }
  • Intel風(fēng)格
  • ; Project: DIY KVM 1.0 ; Description: a+b ; Author: Jingyu YANG ; Date: 2019.07.28 ; Path: src/basic/01_add/intel/add.asmSECTION .TEXTGLOBAL _start _start:mov rax,1mov rbx,1add rax,rbx ; rax=rax+rbxmov cx,0x0a30 ; char '0\n'push cxadd [rsp],al ; int -> charmov rcx,rsp output:mov rax,1 ; syscall writemov rdi,1 ; stdoutmov rsi,rcx ; buffermov rdx,2 ; 2bytessyscall exit:mov rax,60 ; syscall exitmov rdi,0syscall
  • AT&T風(fēng)格
  • # Project: DIY KVM 1.0 # Description: a+b # Author: Jingyu YANG # Date: 2019.07.28 # Path: src/basic/01_add/att/add.s.text.global _start _start:mov $1,%raxmov $1,%rbxadd %rbx,%rax # rax=rax+rbxmov $0x0a30,%cx # char '0\n'push %cxadd %al,(%rsp) # int -> charmov %rsp,%rcx output:mov $1,%rax # syscall writemov $1,%rdi # stdoutmov %rcx,%rsi # buffermov $2,%rdx # 2bytessyscall exit:mov $60,%rax # syscall exitmov $0,%rdisyscall

    從上面Intel和AT&T語(yǔ)法對(duì)比中可以看出,這兩種語(yǔ)法最大的區(qū)別在于賦值方向,對(duì)于Intel語(yǔ)法來(lái)說(shuō),是從右向左賦值,對(duì)于AT&T來(lái)說(shuō),是從左向右賦值。這一點(diǎn)在閱讀匯編代碼和調(diào)試程序時(shí)非常重要,需要明判斷匯編語(yǔ)言的語(yǔ)法種類,明確賦值的方向。

    在這三個(gè)例子文件夾中,都包含了Makefile文件,使用如下命令就可以進(jìn)行編譯并運(yùn)行。

    [root@diykvm intel]# make nasm -f elf64 add.asm -o add.o ld add.o -o add.elf [root@diykvm intel]# make run ./add.elf 2

    用戶態(tài)調(diào)試

    GDB是Linux軟件開發(fā)最常用的調(diào)試器,功能非常豐富,例如能夠查看內(nèi)存,反匯編代碼,對(duì)程序的特定位置下斷點(diǎn)和單步調(diào)試。這里只針對(duì)虛擬化開發(fā)常用的gdb功能進(jìn)行介紹,更佳完善的功能請(qǐng)參考本章最后提供的學(xué)習(xí)資料。對(duì)于遠(yuǎn)程調(diào)試和內(nèi)核調(diào)試的技術(shù),會(huì)在后續(xù)章節(jié)進(jìn)行介紹。

  • 入口點(diǎn)設(shè)置斷點(diǎn)
  • 無(wú)論是C語(yǔ)言還是匯編語(yǔ)言編寫的ELF程序,gdb都可以進(jìn)行調(diào)試,但是對(duì)于匯編語(yǔ)言編寫的程序,無(wú)法在main函數(shù)上下斷點(diǎn),這里介紹如何在ELF程序的第一條指令的位置,即程序入口點(diǎn)設(shè)置斷點(diǎn)。 在加載被調(diào)試的程序后,使用命令info files能夠顯示ELF文件的入口點(diǎn)(Entry point),然后使用break命令對(duì)該地址設(shè)置斷點(diǎn)。

    [root@diykvm intel]# gdb ./add.elf This GDB was configured as "x86_64-redhat-linux-gnu". (gdb) info files Symbols from "/root/code/kvm/diykvm/src/basic/01_add/intel/add.elf". Local exec file:`/root/code/kvm/diykvm/src/basic/01_add/intel/add.elf',file type elf64-x86-64.Entry point: 0x4000780x0000000000400078 - 0x00000000004000b1 is .TEXT (gdb) break *0x400078 Breakpoint 1 at 0x400078 (gdb) r Starting program: /root/code/kvm/diykvm/src/basic/01_add/intel/./add.elfBreakpoint 1, 0x0000000000400078 in _start () (gdb) x/i $pc => 0x400078: mov $0x1,%eax (gdb)
  • 反匯編函數(shù)
  • 對(duì)于c語(yǔ)言編寫的程序,可以使用disassemble命令反匯編函數(shù)。這里對(duì)main函數(shù)進(jìn)行反匯編,gdb默認(rèn)以AT&T語(yǔ)法顯示出了a+b的匯編代碼。

    (gdb) disassemble main Dump of assembler code for function main:0x000000000040051d <+0>: push %rbp0x000000000040051e <+1>: mov %rsp,%rbp0x0000000000400521 <+4>: sub $0x10,%rsp0x0000000000400525 <+8>: movl $0x1,-0x4(%rbp)0x000000000040052c <+15>: movl $0x1,-0x8(%rbp)0x0000000000400533 <+22>: mov -0x8(%rbp),%eax0x0000000000400536 <+25>: add %eax,-0x4(%rbp)0x0000000000400539 <+28>: mov -0x4(%rbp),%eax
  • 設(shè)置匯編語(yǔ)法
  • 在上一個(gè)例子中,gdb默認(rèn)使用的是AT&T語(yǔ)法,可以通過命令set disassembly-flavor intel將默認(rèn)的匯編語(yǔ)法改為Intel語(yǔ)法。下面這個(gè)例子展示了相同地址上的機(jī)器指令已經(jīng)被反匯編成Intel匯編語(yǔ)法。

    (gdb) disassemble main Dump of assembler code for function main:0x000000000040051d <+0>: push rbp0x000000000040051e <+1>: mov rbp,rsp0x0000000000400521 <+4>: sub rsp,0x100x0000000000400525 <+8>: mov DWORD PTR [rbp-0x4],0x10x000000000040052c <+15>: mov DWORD PTR [rbp-0x8],0x10x0000000000400533 <+22>: mov eax,DWORD PTR [rbp-0x8]0x0000000000400536 <+25>: add DWORD PTR [rbp-0x4],eax0x0000000000400539 <+28>: mov eax,DWORD PTR [rbp-0x4]
  • 單步調(diào)試的配置
  • gdb中可以使用ni和si命令進(jìn)行指令級(jí)別的單步調(diào)試,在使用時(shí),建議配置display/i $pc在每次單步調(diào)試后,都能顯示接下來(lái)即將執(zhí)行的一條指令。下面例子展示了使用display命令后的效果。

    (gdb) display/i $pc (gdb) ni 6 * */ 1: x/i $pc => 0x40052c <main+15>: mov DWORD PTR [rbp-0x8],0x1 (gdb) ni 7 #include <unistd.h> 1: x/i $pc => 0x400533 <main+22>: mov eax,DWORD PTR [rbp-0x8]

    本小節(jié)介紹了開發(fā)調(diào)試環(huán)境準(zhǔn)備工作,從硬件到操作系統(tǒng)再到開發(fā)工具,由底層到上層介紹了虛擬化開發(fā)所需要的資源信息,本書中所有的源代碼均可以在這個(gè)環(huán)節(jié)中進(jìn)行編譯、執(zhí)行和調(diào)試。虛擬化開發(fā)屬于系統(tǒng)底層開發(fā)技術(shù),本小節(jié)的后半部分,以一個(gè)兩數(shù)相加的程序?yàn)槔?#xff0c;介紹了匯編語(yǔ)言的開發(fā)過程,最后介紹了gdb進(jìn)行調(diào)試的技術(shù)要點(diǎn)。由于本書專注于虛擬化開發(fā),無(wú)法對(duì)匯編語(yǔ)言和GDB調(diào)試展開更細(xì)致的介紹,請(qǐng)感興趣的讀者參考本章最后的學(xué)習(xí)資料進(jìn)行更全面和深入的學(xué)習(xí)。

    KVM內(nèi)核API

    上一小結(jié)介紹了如何準(zhǔn)備虛擬化開發(fā)調(diào)試環(huán)境,本小結(jié)將會(huì)介紹KVM API的基礎(chǔ)知識(shí)。

    KVM設(shè)備

    KVM API由內(nèi)核模塊kvm.ko實(shí)現(xiàn),以設(shè)備的形式暴露給用戶態(tài)程序使用,設(shè)備名稱為/dev/kvm。

    在開發(fā)環(huán)境中,kvm.ko模塊默認(rèn)是自動(dòng)加載的,KVM設(shè)備在模塊加載時(shí)自動(dòng)創(chuàng)建。如果找不到/dev/kvm, 可以嘗試手動(dòng)加載kvm模塊。x86平臺(tái)上主流的硬件虛擬化技術(shù)有兩種,Intel VT-x和 AMD svm, kvm.ko 模塊只是對(duì)這兩種硬件虛擬化的包裝,根據(jù)CPU的不同,kvm.ko模塊還依賴于 kvm-intel.ko 或者 kvm-amd.ko,分別對(duì)應(yīng)這兩種硬件虛擬化技術(shù)。

    以下腳本展示了,對(duì)kvm設(shè)備和kvm內(nèi)核模塊的探測(cè)情況,在檢測(cè)到?jīng)]有啟用kvm內(nèi)核模塊時(shí),會(huì)進(jìn)行主動(dòng)加載。

    TODO code

    在Linux kernel 4.4.2代碼中,KVM設(shè)備注冊(cè)是在kvm_main.c文件的kvm_init()中,將kvm設(shè)備注冊(cè)成為雜項(xiàng)設(shè)備, 設(shè)備編號(hào)為232,并且為該設(shè)備綁定了ioctl的處理函數(shù)kvm_dev_ioctl()。

    // Path: kernel/virt/kvm/kvm_main.c // 232 = /dev/kvm Kernel-based virtual machine (hardware virtualization extensions)#define KVM_MINOR 232static struct file_operations kvm_chardev_ops = {.unlocked_ioctl = kvm_dev_ioctl,.compat_ioctl = kvm_dev_ioctl,.llseek = noop_llseek, };static struct miscdevice kvm_dev = {KVM_MINOR,"kvm",&kvm_chardev_ops, };int kvm_init(void *opaque, unsigned vcpu_size, unsigned vcpu_align,struct module *module){...r = misc_register(&kvm_dev);... }

    ioctl調(diào)用模式

    因?yàn)樘摂M機(jī)的創(chuàng)建和控制均涉及用戶態(tài)(ring3)向內(nèi)核態(tài)(ring0)通信,所以無(wú)法直接使用傳統(tǒng)的函數(shù)調(diào)用方式。KVM開發(fā)者選擇了在內(nèi)核層創(chuàng)建/dev/kvm設(shè)備,然后讓用戶態(tài)程序以ioctl模式操作該設(shè)備進(jìn)行通信這種方式。

    iotcl函數(shù)原型如下:

    int ioctl(int fd, unsigned long request, ...);

    ioctl全稱是input and output control, 是一個(gè)用于設(shè)備輸入和輸出的系統(tǒng)調(diào)用。第一個(gè)參數(shù)是文件描述符fd, 通過open()系統(tǒng)調(diào)用獲得。第二個(gè)參數(shù)是請(qǐng)求碼,內(nèi)核處理函數(shù)根據(jù)請(qǐng)求碼區(qū)分不同的請(qǐng)求操作,后續(xù)是一串可變數(shù)量的補(bǔ)充參數(shù)。

    除了使用ioctl模式,用戶態(tài)程序和內(nèi)核通信,還可以選擇傳統(tǒng)的系統(tǒng)調(diào)用(syscall),但是系統(tǒng)調(diào)用ID是在內(nèi)核編譯時(shí)確定好的,不方便動(dòng)態(tài)增加。也可以選擇/proc文件系統(tǒng)或/sys文件系統(tǒng),但是/proc文件系統(tǒng)主要用于顯示內(nèi)核狀態(tài),而/sys主要用于對(duì)內(nèi)核配置進(jìn)行簡(jiǎn)單配置。最后還可以選擇netlink,以類似socket通信的方式同內(nèi)核進(jìn)行交互,但是這種方式和ioctl相比,調(diào)用過程更加復(fù)雜。

    以下是kvm ioctl處理函數(shù)kvm_dev_ioctl()的部分實(shí)現(xiàn),主要實(shí)現(xiàn)流程是根據(jù)ioctl請(qǐng)求碼,分別進(jìn)行相應(yīng)的處理操作,包括返回KVM版本信息或者創(chuàng)建虛擬機(jī)等。

    // Path: kernel/virt/kvm/kvm_main.cstatic long kvm_dev_ioctl(struct file *filp,unsigned int ioctl, unsigned long arg) {long r = -EINVAL;switch (ioctl) {case KVM_GET_API_VERSION:if (arg)goto out;r = KVM_API_VERSION;break;case KVM_CREATE_VM:r = kvm_dev_ioctl_create_vm(arg);break;case KVM_CHECK_EXTENSION:r = kvm_vm_ioctl_check_extension_generic(NULL, arg);break;... }

    核心API

    介紹了KVM設(shè)備對(duì)象和通信方式后,這里會(huì)介紹KVM API的三個(gè)調(diào)用層次,并列舉說(shuō)明核心的API:

    • 系統(tǒng)層

    最外層是系統(tǒng)層,該層能夠查詢和設(shè)置KVM全局的配置信息,客戶端通過打開/dev/kvm設(shè)備獲得文件描述符kvm_fd, 對(duì)這個(gè)全局的文件描述符使用ioctl,配合相應(yīng)的請(qǐng)求碼進(jìn)行系統(tǒng)層的查詢和設(shè)置操作。例如如下兩個(gè)操作都是系統(tǒng)層API。

  • 查詢KVM版本的請(qǐng)求操作
  • ioctl(kvm_fd, KVM_GET_API_VERSION,0)

    該請(qǐng)求會(huì)固定返回整數(shù)12,表示即使后續(xù)KVM API會(huì)持續(xù)改進(jìn),也會(huì)保持API的兼容性。

  • 創(chuàng)建虛擬機(jī)文件描述符的操作
  • vm_fd = ioctl(kvm_fd, KVM_CREATE_VM, 0)

    該請(qǐng)求會(huì)創(chuàng)建一個(gè)新的虛擬機(jī),并返回相應(yīng)的文件描述符vm_fd,用于后續(xù)虛擬機(jī)層API的操作。

    • 虛擬機(jī)層

    中間層是虛擬機(jī)層,負(fù)責(zé)操作對(duì)于虛擬機(jī)的配置信息。本層API通過對(duì)系統(tǒng)層返回的虛擬機(jī)文件描述符vm_fd進(jìn)行ioctl操作,配合相應(yīng)的請(qǐng)求碼,負(fù)責(zé)對(duì)單個(gè)虛擬機(jī)進(jìn)行控制。其中關(guān)鍵的API有:

  • 設(shè)置虛擬機(jī)內(nèi)存
  • struct kvm_userspace_memory_region region={.slot = 0,.guest_phys_addr = 0,.memory_size = ram_size,.userspace_addr = (u64)ram_start};ioctl(vm_fd, KVM_SET_USER_MEMORY_REGION, &region);

    該API向內(nèi)核傳遞了一個(gè)region的結(jié)構(gòu)體指針,描述了虛擬機(jī)內(nèi)存的分配情況。

    該結(jié)構(gòu)體中,slot 表示內(nèi)存條插槽,guest_phys_addr 表示在虛擬機(jī)中的物理地址起始位置,memory_size 表示該內(nèi)存的大小,最后的userspace_addr 傳入的是用戶層申請(qǐng)的內(nèi)存地址。 通過該API,用戶層將申請(qǐng)的一片按頁(yè)對(duì)齊的內(nèi)存提交給內(nèi)核層,用于設(shè)置虛擬機(jī)的內(nèi)存。

  • 新建虛擬CPU
  • KVM 支持虛擬多核處理器,通過對(duì)mv_fd調(diào)用ioctl,使用KVM_CREATE_VCPU作為命令字,并且傳入vcpu序號(hào),可以新建虛擬CPU。

    vcpu->vcpu_fd = ioctl(kvm->vm_fd, KVM_CREATE_VCPU, i);

    • 虛擬CPU層

    最內(nèi)層是虛擬CPU層,負(fù)責(zé)對(duì)具體CPU的控制。該層API包括針對(duì)具體CPU的寄存器進(jìn)行設(shè)置和啟動(dòng)虛擬CPU的操作。

  • 讀取和寫入CPU寄存器
  • 以下代碼首先讀取了vcpu的段寄存器,然后對(duì)代碼段寄存器cs進(jìn)行了歸零設(shè)置。

    ioctl(vcpu->vcpu_fd, KVM_GET_SREGS, &(vcpu->sregs));vcpu->sregs.cs.selector =0;vcpu->sregs.cs.base = 0;ioctl(vcpu->vcpu_fd, KVM_SET_SREGS, &(vcpu->sregs));
  • 啟動(dòng)虛擬CPU
  • ioctl(vcpu->vcpu_fd, KVM_RUN, 0)

    通過對(duì)vcpu_fd使用ioctl調(diào)研,傳入KVM_RUN操作碼,就可以啟動(dòng)當(dāng)前CPU,這次調(diào)用是一次同步調(diào)用,一旦調(diào)用開始,虛擬機(jī)就會(huì)運(yùn)行,直到遇到虛擬機(jī)退出的情況。能夠引起虛擬機(jī)退出的指令包括一些特權(quán)指令,端口IO指令等。

    本段從用戶態(tài)視角介紹了KVM核心API的三個(gè)層次和一些典型的API,具體這些API在內(nèi)核層的實(shí)現(xiàn),后續(xù)會(huì)在內(nèi)核層逐步展開介紹。

    虛擬機(jī)創(chuàng)建和運(yùn)行

    在介紹了KVM核心API后,本段會(huì)介紹創(chuàng)建和運(yùn)行虛擬機(jī)的主要流程。這里宏觀的流程圖如下:

    TODO 流程圖

  • 初始化KVM設(shè)備
  • 創(chuàng)建虛擬機(jī)
  • 初始化虛擬機(jī)內(nèi)存
  • 初始化vcpu
  • 初始化代碼
  • 啟動(dòng)vcpu
  • 處理虛擬機(jī)退出事件
  • 轉(zhuǎn)到第6步,繼續(xù)啟動(dòng)vcpu
  • 串口通信原理

    上一小節(jié)介紹了KVM核心API和虛擬機(jī)啟動(dòng)流程,本節(jié)將會(huì)研究虛擬機(jī)和宿主機(jī)的通信方式,在眾多通信方式中,選擇最簡(jiǎn)單有效的串口通信方式進(jìn)行介紹。

    在最小系統(tǒng)的實(shí)踐中,當(dāng)虛擬機(jī)完成計(jì)算任務(wù),就會(huì)使用串口通信的方式,將計(jì)算結(jié)果輸出到串口設(shè)備中,宿主機(jī)可以接管該IO請(qǐng)求,接收虛擬機(jī)發(fā)出的字符結(jié)果。

    串口設(shè)備介紹

    不同于網(wǎng)絡(luò)通信,串口通信在x86物理平臺(tái)上使用的機(jī)會(huì)比較少,本段會(huì)介紹一些基本的串口通信的概念。

    串口是串行接口(serial interface)的簡(jiǎn)稱, 在該接口上,數(shù)據(jù)按位(bit)進(jìn)行發(fā)送和接收。盡管傳輸速度慢,但是串口通信的優(yōu)勢(shì)是硬件和上層的驅(qū)動(dòng)程序?qū)崿F(xiàn)簡(jiǎn)單,這一優(yōu)勢(shì)常用于硬件設(shè)備之間的互聯(lián)互通。另外串口設(shè)備初始化時(shí)機(jī)非常早,有利于對(duì)外輸出設(shè)備初始化信息,是操作系統(tǒng)真機(jī)調(diào)試中最穩(wěn)定和最常用的接口。

    串口有非常多的代名詞。例如com1口,這里是windows操作系統(tǒng)中設(shè)備管理器的常用代號(hào),一般是指第一個(gè)通信端口(communication port),在老式的臺(tái)式機(jī)中,com1口就是第一個(gè)串口。

    這個(gè)端口一般在機(jī)箱背后,是9針的一個(gè)接口,也叫RS232接口,這里RS-232是美國(guó)電子工業(yè)聯(lián)盟(EIA)制定的串行數(shù)據(jù)通信的接口標(biāo)準(zhǔn),對(duì)電氣特性、邏輯電平和各種信號(hào)線功能都作了規(guī)定。

    另外在還有資料使用UART(Universal Asynchronous Receiver/Transmitter)來(lái)代表串口,因?yàn)檫@個(gè)端口使用的通信方式是異步(Asynchronous)通信,通過START和STOP信號(hào)來(lái)標(biāo)明傳輸?shù)拈_始和結(jié)束,而不是像同步通信那樣,使用時(shí)鐘信號(hào)來(lái)傳輸數(shù)據(jù)。

    串口通信經(jīng)常用于嵌入式開發(fā),在嵌入式領(lǐng)域,使用TTL(Transistor-transistor logic)來(lái)指代串口。在嵌入式領(lǐng)域,使用3根線路(接地、發(fā)送、接收)就可以進(jìn)行串口通信,但是TTL與RS232最大的不同是,TTL高電平1是>=2.4V,低電平0是<=0.5V, 而RS232采用-15V~-3V代表邏輯"1",+3V~+15V代表邏輯"0",這就導(dǎo)致雖然兩種接口都是串口,但是無(wú)法直接連通。

    在Linux系統(tǒng)中,第一個(gè)串口設(shè)備是/dev/ttyS0, 對(duì)于沒有串口的筆記本可以購(gòu)買USB轉(zhuǎn)串口的設(shè)備,這時(shí)第一個(gè)設(shè)備名稱為/dev/ttyUSB0

    在串口通信中,如下參數(shù)需要通信雙方配置一致,才能夠進(jìn)行正確的通信。

  • 波特率(baud rate):波形每秒震蕩的次數(shù),對(duì)于串口通信,一次波形震蕩就代表傳輸一個(gè)bit。常用設(shè)置值為9600。
  • 數(shù)據(jù)位:一次傳輸數(shù)據(jù)占用的bit位,一般是8bit。
  • 奇偶校驗(yàn):如果是偶校驗(yàn),校驗(yàn)位會(huì)將每次數(shù)據(jù)位傳輸過程中的1補(bǔ)齊為偶數(shù)個(gè),如果是奇校驗(yàn),則補(bǔ)齊為奇數(shù)個(gè)。一般不設(shè)置奇偶校驗(yàn)位。
  • 停止位:一般是1個(gè)bit,表示一次傳輸數(shù)據(jù)的結(jié)束。
  • 流控制:是否有流控策略,一般沒有。
  • 以上默認(rèn)值中,傳輸一個(gè)byte,需要1bit開始位+8bit的數(shù)據(jù)位+1bit結(jié)束位共10bit,對(duì)于boud rate為9600的串口通信,傳輸速度是960 B/s( byte per second)。 對(duì)于如今以G為單位的網(wǎng)絡(luò)速度實(shí)在是太慢了,但是串口通信利用其實(shí)現(xiàn)簡(jiǎn)單,運(yùn)行穩(wěn)定的特點(diǎn),仍然服務(wù)于嵌入式開發(fā),網(wǎng)絡(luò)設(shè)備配置和操作系統(tǒng)調(diào)試等領(lǐng)域。

    本段只是對(duì)串口設(shè)備和相關(guān)概念進(jìn)行了一些簡(jiǎn)單的介紹,方便讀者理解虛擬機(jī)和宿主機(jī)的串口通信方式,對(duì)于串口通信領(lǐng)域更深層次的探索,請(qǐng)參考本節(jié)最后的參考資料。

    通信選擇策略

    在熟悉了串口設(shè)備后,這里列舉出一些可供選擇的虛擬機(jī)和宿主機(jī)之間的其他通信方式,然后分析為什么選擇串口通信作為最小系統(tǒng)的通信方式。

  • 網(wǎng)絡(luò)通信:網(wǎng)絡(luò)通信需要VMM實(shí)現(xiàn)虛擬網(wǎng)卡,并且在虛擬機(jī)中安裝了相應(yīng)的網(wǎng)卡驅(qū)動(dòng),雖然速度比串口通信要快,但是需要實(shí)現(xiàn)的模塊太多,還不適合在最小系統(tǒng)中使用,后續(xù)會(huì)專門介紹虛擬網(wǎng)卡的實(shí)現(xiàn)。
  • 內(nèi)存通信:在介紹KVM核心API時(shí),VMM能夠通過KVM_SET_USER_MEMORY_REGION請(qǐng)求嗎注冊(cè)虛擬機(jī)內(nèi)存,該內(nèi)存在VMM和虛擬機(jī)內(nèi)部都可以訪問,利用這片內(nèi)存區(qū)域的特定區(qū)域,可以實(shí)現(xiàn)基于內(nèi)存的高速通信。但是通信出了要考慮傳輸?shù)臄?shù)據(jù),還要考慮開始和結(jié)束的機(jī)制,利用內(nèi)存通信,需要建立完善的啟停機(jī)制,這一點(diǎn)不適合在最小系統(tǒng)中使用。
  • 寄存器通信:KVM API也提供了查詢虛擬機(jī)寄存器的API,可以指定某個(gè)不常用的寄存器作為VMM和虛擬機(jī)通信的橋梁,但是如果遇到在虛擬機(jī)中該寄存器被使用,就會(huì)造成通信內(nèi)容錯(cuò)誤。
  • 其他外設(shè)通信:虛擬機(jī)除了借助串口進(jìn)行通信外,還可以借助顯示器、鍵盤鼠標(biāo)、USB設(shè)備等外設(shè)進(jìn)行通信,但是和網(wǎng)絡(luò)通信一樣,都需要VMM實(shí)現(xiàn)相應(yīng)的虛擬設(shè)備,不適合在最小系統(tǒng)中使用。
  • 綜合上面的分析,串口通信,因?yàn)槠浣Y(jié)構(gòu)簡(jiǎn)單,容易實(shí)現(xiàn)的特點(diǎn),非常適合在最小系統(tǒng)中作為虛擬機(jī)和宿主機(jī)通信的橋梁。

    虛擬串口實(shí)現(xiàn)

    選定通信方式之后,本段會(huì)介紹如何在宿主機(jī)客戶層接管串口IO請(qǐng)求,實(shí)現(xiàn)一個(gè)虛擬串口。首先介紹在x86體系架構(gòu)中,負(fù)責(zé)串口通信的指令。然后介紹在VMM中如何處理串口通信請(qǐng)求。

  • 串口通信指令 在x86體系架構(gòu)中,串口通信使用的是IO端口(Port I/O)通信模式。IO端口是CPU與外設(shè)直接的一種通信方式,共有65535個(gè)端口(0x0000~0xFFFF)供CPU與外設(shè)進(jìn)行數(shù)據(jù)通信,其中第一個(gè)串口的端口就是0x03f8,要注意的是這些端口的地址并不是內(nèi)存地址。
  • CPU使用指令I(lǐng)N 和 OUT 來(lái)寫和讀相應(yīng)端口的數(shù)據(jù)。這里只介紹向串口寫數(shù)據(jù)的指令EE, 該指令將AL寄存器的1 byte數(shù)據(jù),寫入DX寄存器對(duì)應(yīng)的IO端口上。因?yàn)榇诘腎O端口是2字節(jié)地址,所以無(wú)法使用立即數(shù)直接作為IO端口,必須先設(shè)置DX寄存器。

    EE OUT DX, AL Output byte in AL to I/O port address in DX.
  • 處理串口請(qǐng)求
  • 當(dāng)虛擬機(jī)執(zhí)行EE這條指令后,虛擬機(jī)會(huì)從運(yùn)行模式退出到VMM,VMM會(huì)根據(jù)返回碼判斷是否是串口通信請(qǐng)求,然后做相應(yīng)的處理。如下代碼顯示了將串口傳來(lái)的字節(jié)打印在宿主機(jī)的屏幕上。

    int reason = vcpu->kvm_run->exit_reason;switch (reason){...case KVM_EXIT_IO://printf("KVM_EXIT_IO port:%x\n",vcpu->kvm_run->io.port);handle_IO(vcpu);break;...}

    首先通過判斷exit_reason是否為KVM_EXIT_IO來(lái)確定退出原因是IO端口請(qǐng)求。

    void handle_IO(struct kvm_cpu* vcpu){if (vcpu->kvm_run->io.direction == KVM_EXIT_IO_OUT){u8* src = (u8*)vcpu->kvm_run;u64 offset = vcpu->kvm_run->io.data_offset;u64 tot_size = (vcpu->kvm_run->io.size)*(vcpu->kvm_run->io.count);write(STDERR_FILENO, src+offset, tot_size);}else{perror("unsupported io");} }

    其次在vcpu->kvm_run->io結(jié)構(gòu)中,包含了通信的方向(direction),數(shù)據(jù)的偏移地址(offset), 和數(shù)據(jù)大小(size)和請(qǐng)求次數(shù)(count).

    最后將虛擬機(jī)傳入的數(shù)據(jù),寫入STDERR_FILENO中,就會(huì)在宿主機(jī)中打印出串口設(shè)備傳入的字符。

    總結(jié)

    本節(jié)通過對(duì)串口通信的介紹,并將串口通信和其他通信方式進(jìn)行了比較,確定了在最小系統(tǒng)中,使用串口通信作為主要的虛擬機(jī)和宿主機(jī)直接的通信方式。

    最小系統(tǒng)開發(fā)

    在了解KVM核心API和虛擬機(jī)運(yùn)行流程后,本小節(jié)會(huì)講解如何開發(fā)一個(gè)虛擬機(jī)的最小系統(tǒng),該系統(tǒng)能夠運(yùn)行一個(gè)支持x86算術(shù)指令的虛擬機(jī)。

    運(yùn)行場(chǎng)景

    首先展示一下這個(gè)虛擬機(jī)是如何運(yùn)行的。

    最小系統(tǒng)會(huì)加載一段x86指令,然后設(shè)置好虛擬機(jī)的cs段寄存器和ip寄存器,指向第一條指令。這段指令將BL和AL兩個(gè)寄存器相加,然后結(jié)果存到AL寄存器中,然后通過串口通信輸出到串口設(shè)備中,最后在VMM中接收到IO端口的請(qǐng)求,吧串口數(shù)據(jù)顯示在屏幕上。運(yùn)行2+2的結(jié)果如下:

    [root@diykvm basic]# make gcc -std=gnu99 main.c -g -O0 -o diykvm_basic.elf [root@diykvm basic]# make run ./diykvm_basic.elf cpu support vmx kvm version: 12 allocated 536870912 bytes from 0x7f34aeb92000 init cpu0 vcpu mmap size: 12288 task: 2 + 2 result: 4 KVM_EXIT_HLT

    最小系統(tǒng)模型

    這里總結(jié)一下最小系統(tǒng)的模型。在下圖中,最小系統(tǒng)主要分為初始化模塊、VM裝載模塊和運(yùn)行模塊。在運(yùn)行模塊中會(huì)使用KVM API進(jìn)行虛擬機(jī)的管理,并且利用串口通信模塊和虛擬機(jī)進(jìn)行通信。

    TODO 圖

    核心代碼

    本段介紹關(guān)鍵的核心代碼。

    首先介紹main()函數(shù),負(fù)責(zé)調(diào)用各個(gè)模塊的實(shí)現(xiàn)函數(shù)。其中包括:

  • 初始化模塊:依次調(diào)用kvm_init()初始化KVM環(huán)境, mem_init()初始化內(nèi)存,vcpu_init()初始化vcpu。
  • VM裝載模塊:調(diào)用install_code()裝載預(yù)先存好的vm指令,然后調(diào)用reset_cpu()設(shè)置cs和ip寄存器。
  • 運(yùn)行模塊:主要由kvm_cpu_run()實(shí)現(xiàn)。
  • 結(jié)束模塊:主要有cleanup()實(shí)現(xiàn)一些結(jié)束的工作。
  • 在深入介紹各種模塊之前,首先介紹一下最小系統(tǒng)中使用的結(jié)構(gòu)體。 TODO 需要清理一下結(jié)構(gòu)體

    struct kvm {struct kvm_arch arch;struct kvm_config cfg;int sys_fd; /* For system ioctls(), i.e. /dev/kvm */int vm_fd; /* For VM ioctls() */timer_t timerid; /* Posix timer for interrupts */int nrcpus; /* Number of cpus to run */struct kvm_cpu *cpus[MAX_VCPU_NUM];u32 mem_slots; /* for KVM_SET_USER_MEMORY_REGION */u64 ram_size;void *ram_start;u64 ram_pagesize;struct list_head mem_banks;bool nmi_disabled;const char *vmlinux;struct disk_image **disks;int nr_disks;int vm_state; };

    在main()函數(shù)中,會(huì)按順序調(diào)用各個(gè)模塊。

    int main(){struct kvm *kvm = NULL;int ret=0;kvm = (struct kvm*)malloc(sizeof(struct kvm));do{ret = kvm_init(kvm);...ret = mem_init(kvm);...ret = vcpu_init(kvm,KVM_CFG_VCPU_NUM);ret = install_code(kvm,shell_code,sizeof(shell_code));ret = reset_cpu(kvm);}while(0);kvm_cpu_run(kvm);cleanup(kvm);...return ret; }

    以下是各個(gè)模塊的介紹。

  • 初始化模塊:
  • kvm_init()函數(shù)首先檢測(cè)CPU是否支持Intel VT-x技術(shù),即使用CPUID指令判斷是否支持vmx。接著按照KVM API調(diào)用規(guī)范,先打開/dev/kvm設(shè)備,然后判斷KVM_API版本信息。最后調(diào)用KVM_CREATE_VM API創(chuàng)建虛擬機(jī)文件描述符vm_fd, 最后是進(jìn)行一些KVM擴(kuò)展功能的判定。

    int kvm_init(struct kvm *kvm){int kvm_fd = 0;int vm_fd = 0;int ret = 0;do{if (cpu_support_vmx()){printf("cpu support vmx\n");}else{printf("cpu not support vmx\n");ret = -1;break;}kvm_fd = open("/dev/kvm",O_RDWR|O_CLOEXEC);...kvm->sys_fd = kvm_fd;ret = ioctl(kvm_fd, KVM_GET_API_VERSION,0);printf("kvm version: %d\n",ret);...vm_fd = ioctl(kvm_fd, KVM_CREATE_VM, 0);...kvm->vm_fd = vm_fd;ret = ioctl(kvm_fd ,KVM_CHECK_EXTENSION, KVM_CAP_USER_MEMORY);...//TODO other ext check}while(0);return ret; }

    mem_init()函數(shù)用于初始化虛擬機(jī)內(nèi)存,首先使用mmap()申請(qǐng)一片按頁(yè)對(duì)齊的內(nèi)存,默認(rèn)是512M(KVM_CFG_RAM_SIZE),然后將內(nèi)存地址和大小填充到kvm_userspace_memory_region 結(jié)構(gòu)體中,最后調(diào)用KVM_SET_USER_MEMORY_REGION API將虛擬機(jī)內(nèi)存和vm_fd綁定。

    int mem_init(struct kvm* kvm){int ret=0;u64 ram_size = KVM_CFG_RAM_SIZE;void* ram_start=NULL;ram_start = mmap(NULL, ram_size, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANON | MAP_NORESERVE, -1,0);...madvise(ram_start, ram_size, MADV_MERGEABLE);printf("allocated %lld bytes from %p\n",ram_size,ram_start);kvm->ram_start = ram_start;kvm->ram_size = ram_size;kvm->ram_pagesize = getpagesize();struct kvm_userspace_memory_region region={.slot = 0,.guest_phys_addr = 0,.memory_size = ram_size,.userspace_addr = (u64)ram_start};ret = ioctl(kvm->vm_fd, KVM_SET_USER_MEMORY_REGION, &region);...return ret; }

    vcpu_init()函數(shù)針對(duì)每個(gè)vcpu進(jìn)行初始化,最小系統(tǒng)為了簡(jiǎn)單,最多只支持一個(gè)vcpu。初始化過程主要分三個(gè)階段,首先調(diào)用KVM_CREATE_VCPU創(chuàng)建vcpu_fd, 其次調(diào)用KVM_GET_VCPU_MMAP_SIZE獲取每個(gè)vcpu占用的內(nèi)存大小,最后根據(jù)上一步獲取的內(nèi)存大小,為每個(gè)vcpu申請(qǐng)內(nèi)存,vcpu的數(shù)據(jù),例如寄存器等都保存在kvm_run這個(gè)結(jié)構(gòu)體中。

    int vcpu_init(struct kvm* kvm, int vcpu_num){int ret = 0;if (vcpu_num!=1){perror("only support 1 vcpu");ret = -1;return ret;}kvm->nrcpus = vcpu_num;for (int i=0;i< kvm->nrcpus; i++){printf("init cpu%d\n",i);struct kvm_cpu * vcpu=NULL;vcpu = (struct kvm_cpu*)malloc(sizeof(struct kvm_cpu));...vcpu->kvm = kvm;vcpu->cpu_id = i;vcpu->vcpu_fd = ioctl(kvm->vm_fd, KVM_CREATE_VCPU, i);...int mmap_size = ioctl(kvm->sys_fd, KVM_GET_VCPU_MMAP_SIZE, 0);printf("vcpu mmap size: %d\n",mmap_size);...vcpu->kvm_run = mmap(NULL, mmap_size, PROT_READ | PROT_WRITE, MAP_SHARED, vcpu->vcpu_fd, 0 );...vcpu->is_running = true;kvm->cpus[i]=vcpu;}return ret; }
  • VM裝載模塊:
  • 裝載vm指令的函數(shù)install_code()比較簡(jiǎn)單,就是將預(yù)先存好指令數(shù)組run_code,使用memcpy()復(fù)制到虛擬機(jī)內(nèi)存中的offset偏移位置,這里選擇0x1000偏移,是為了讓VM指令處于第2頁(yè)內(nèi)存中,其中一頁(yè)內(nèi)存是4K bytes(0x1000)。這個(gè)偏移值會(huì)影響后續(xù)的cpu寄存器初始化過程。

    int install_code(struct kvm* kvm, u8* run_code, int size){u16 offset = 0x1000; // second pagememcpy(kvm->ram_start+offset, run_code, size);return 0; }

    這里詳細(xì)描述一下vm指令。首先將0x03f8賦值與dx寄存器,0x03f8是第一個(gè)串口的IO端口。然后將al和bl寄存器相加,結(jié)果存在al中。后面指令是將al中的數(shù)字通過與字符0相加,得到ASCII字符的數(shù)字表示,方便在串口設(shè)備上輸出。隨后兩次調(diào)用out指令,將al中的字符和換行符\n輸出到串口中。最后一條指令hlt是停機(jī)指令,標(biāo)志著運(yùn)行結(jié)束。

    還需要介紹的是,x86指令系統(tǒng)分為很多種執(zhí)行模式,這里使用的是16位實(shí)模式(real mode), 隨著虛擬機(jī)的開發(fā),還會(huì)支持32位保護(hù)模式(protected mode), 64位長(zhǎng)模式(long mode)。

    u8 shell_code[]={0xba, 0xf8, 0x03, // mov $0x3f8, %dx0x00, 0xd8, // add %bl,$al0x04, '0', // add $'0',%al0xee, // out %al, (%dx)0xb0, '\n', // mov $'\n',%al0xee, // out %al,(%dx)0xf4 // hlt };

    reset_cpu()主要是初始化vcpu的cs段寄存器和ip寄存器,另外最小系統(tǒng)實(shí)現(xiàn)的是ax寄存器和bx寄存器相加的操作,這里傳入2+2的任務(wù)。還需要設(shè)置rflags為16位實(shí)模式(real mode)。

    int reset_cpu(struct kvm* kvm){u16 offset = 0x1000;struct kvm_cpu* vcpu = kvm->cpus[0];ioctl(vcpu->vcpu_fd, KVM_GET_SREGS, &(vcpu->sregs));vcpu->sregs.cs.selector =0;vcpu->sregs.cs.base = 0;ioctl(vcpu->vcpu_fd, KVM_SET_SREGS, &(vcpu->sregs));vcpu->regs = (struct kvm_regs) {/* 16-bit real mode */.rflags = 0x0000000000000002ULL,.rip = offset,.rax = 2,.rbx = 2};printf("task: %d + %d\n",vcpu->regs.rax, vcpu->regs.rbx);ioctl(vcpu->vcpu_fd, KVM_SET_REGS, &(vcpu->regs));return 0; }
  • 運(yùn)行模塊:
  • kvm_cpu_run()函數(shù)會(huì)在一個(gè)循環(huán)中調(diào)用KVM_RUN, 根據(jù)vcpu數(shù)據(jù)結(jié)構(gòu)kvm_run中的exit_reason值來(lái)判斷KVM退出的原因。比較重要的兩個(gè)原因,第一個(gè)是KVM_EXIT_IO,需要處理IO端口的請(qǐng)求,在最小系統(tǒng)中就是串口通信的請(qǐng)求,第二個(gè)是KVM_EXIT_HLT,就是vm指令中最后一個(gè)hlt指令,這時(shí)需要退出循環(huán),結(jié)束最小系統(tǒng)的工作。

    void kvm_cpu_run(struct kvm* kvm){printf("result:\n");struct kvm_cpu* vcpu = kvm->cpus[0];while(vcpu->is_running){int ret = ioctl(vcpu->vcpu_fd, KVM_RUN, 0);if (ret<0 && (ret!=EINTR && ret !=EAGAIN)){perror("KVM_RUN failed");break ;}int reason = vcpu->kvm_run->exit_reason;switch (reason){case KVM_EXIT_UNKNOWN:printf("KVM_EXIT_UNKNOWN\n"); break;case KVM_EXIT_IO://printf("KVM_EXIT_IO port:%x\n",vcpu->kvm_run->io.port);handle_IO(vcpu);break;case KVM_EXIT_HLT:printf("KVM_EXIT_HLT\n");vcpu->is_running=false;break;default:printf("KVM_EXIT unhandled reason:%d\n", reason);}}return ; }
  • 結(jié)束模塊:
  • cleanup()主要負(fù)責(zé)回收虛擬機(jī)內(nèi)存。

    kvm_run unmap

    void cleanup(struct kvm* kvm){munmap(kvm->ram_start, kvm->ram_size); }

    能力提升

    在完成最小系統(tǒng)后,可以對(duì)其進(jìn)行功能優(yōu)化和改造, 例如增加虛擬機(jī)加載功能,可以先將虛擬機(jī)指令編譯成一個(gè)bin文件,然后在代碼中動(dòng)態(tài)加載該虛擬機(jī),這樣方便對(duì)其他x86指令集進(jìn)行實(shí)驗(yàn)。還可以體驗(yàn)不同的x86指令,觀察最小系統(tǒng)沒有處理的KVM退出原因,這些未處理的功能將會(huì)在后續(xù)章節(jié)進(jìn)行補(bǔ)充。

    例如如下例子:

  • vm指令生成器
  • 加載器
  • hello world VM程序
  • CPUID指令
  • 總結(jié)

    本章實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的虛擬機(jī)最小系統(tǒng),希望大家繼續(xù)關(guān)注。

    學(xué)習(xí)資料

  • 匯編語(yǔ)言
  • GDB調(diào)試
  • 參考資料

  • https://www.kernel.org/doc/Documentation/virtual/kvm/api.txt
  • 串行通信技術(shù)——面向嵌入式開發(fā) I S B N :9787121358609
  • https://c9x.me/x86/html/file_module_x86_id_222.html
  • https://lwn.net/Articles/658511/
  • 總結(jié)

    以上是生活随笔為你收集整理的自己动手利用KVM和Intel VT实现简单虚拟机的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。