【计算机系统设计】实践笔记(2)数据通路构建:第一类R型指令分析(2)
待辦事項
- 時鐘頻率高,取指周期長,遠大于執行周期,如何處理?
- 不可綜合邏輯的處理
接上一篇
【計算機系統設計】實踐筆記(2)數據通路構建:第一類R型指令分析(1)
8.2 ALU運算器
`timescale 1ns / 1ps // // Engineer:jht // Create Date: 2020/11/14 22:30:23 // Module Name: ALU_1 //module ALU_1(// datainput [31:0] A,input [31:0] B,// controlinput [3:0] ALUop,output reg [31:0] ALUresult);// convert A and B to signed numbers wire signed [31:0] A_signed = A; wire signed [31:0] B_signed = B;always @(*) begincase (ALUop)4'b0000: // addbeginALUresult <= A + B;end4'b0001: // addubeginALUresult <= A + B;end4'b0010: // subbeginALUresult <= A - B;end4'b0011: // sububeginALUresult <= A - B;end4'b0100: // andbeginALUresult <= A & B;end4'b0101: // orbeginALUresult <= A | B;end4'b0110: // xorbeginALUresult <= A ^ B;end4'b0111: // norbeginALUresult <= ~(A | B);end4'b1000: // slt // note:********signed********//beginif(A_signed < B_signed)ALUresult <= 1;elseALUresult <= 0;end4'b1001: // sltubeginif(A < B)ALUresult <= 1;elseALUresult <= 0;end4'b1010: // sllvbeginALUresult <= A << B;end4'b1011: // srlvbeginALUresult <= A >> B;end4'b1100: // srav // note: ******signed*******//beginALUresult <= A_signed >>> B;enddefault:beginALUresult <= 0;endendcase endendmodule測試文件tb_ALU_1.v
`timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2020/11/27 10:36:19 // Design Name: // Module Name: tb_ALU_1 // Project Name: // Target Devices: // Tool Versions: // Description: // // Dependencies: // // Revision: // Revision 0.01 - File Created // Additional Comments: // //module tb_ALU_1;// ALU_1 Inputs reg [31:0] A = 0 ; reg [31:0] B = 0 ; reg [3:0] ALUop = 0 ;// ALU_1 Outputs wire [31:0] ALUresult ;ALU_1 u_ALU_1 (.A ( A [31:0] ),.B ( B [31:0] ),.ALUop ( ALUop [3:0] ),.ALUresult ( ALUresult [31:0] ));initial begin#10ALUop = 0;A = 1;B = 4;#10ALUop = 1;A = 1;B = 5;#10ALUop = 2;A = 4;B = 1;#10ALUop = 3;A = 4;B = 2;// and#10ALUop = 4;A = 32'b1001111;B = 32'b1001001;#10ALUop = 5;A = 32'b1001111;B = 32'b1001001;#10ALUop = 6;A = 32'b1001111;B = 32'b1001001;#10ALUop = 7;A = 32'b1001111;B = 32'b1001001;// slt#30ALUop = 8;A = -1;B = 3;#10ALUop = 9;A = -1;B = 3;#10ALUop = 9;A = 1;B = 3;// sllv#30ALUop = 10;A = 32'b1001111;B = 32'd4;#10ALUop = 11;A = 32'hABCDabcd;B = 32'd4;// srav#30ALUop = 12;A = 32'hABCDabcd;B = 32'd4;#40ALUop = 4'b1111;endendmodule功能仿真成功!
8.2.1 注意事項:有無符號數的運算和比較
主要針對slt sltu srlv srav這幾條指令中,涉及到的對有無符號數進行的操作。
原則:Verilog默認都是無符號數,需要顯式地聲明signed才能進行帶符號數運算。
注意代碼中的
// convert A and B to signed numbers wire signed [31:0] A_signed = A; wire signed [31:0] B_signed = B;這是將無符號數聲明為帶符號數的方法。
8.3 Register Files 寄存器堆
reg_files.v
`timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2020/11/14 22:31:09 // Design Name: // Module Name: reg_files_1 // Project Name: // Target Devices: // Tool Versions: // Description: // // Dependencies: // // Revision: // Revision 0.01 - File Created // Additional Comments: // //module reg_files_1(input clk,input rst_n,/*** read port 1 ***/input [4:0] rA, // rs fieldoutput reg [31:0] A,/*** read port 2 ***/input [4:0] rB, // rtoutput reg [31:0] B,/*** write port ***/input [4:0] rW, // rd or rtinput [31:0] writeData, // datainput RegWrite // if RegWrite == 1,you can write data to reg files);// reg files reg [31:0] register [0:31]; integer i; initial beginfor (i = 0;i < 32;i = i + 1)beginregister[i] <= 0;end end/******* write operation *******/always @(posedge clk) // sequential logic beginif(rst_n == 0) // reset is invalidbeginif((RegWrite == 1'b1) && (rW != 5'b0)) // write is valid and address is not equal zerobeginregister[rW] <= writeData;endelse;endelse; end/******* rA read operation *******/ always @(*) // combinational logic beginif(rst_n == 1)beginA <= 32'b0;endelse if(rA == 5'b0)beginA <= 32'b0;endelsebeginA <= register[rA];end end/******* rB read operation *******/ always @(*) // combinational logic beginif(rst_n == 1)beginB <= 32'b0;endelse if(rB == 5'b0) // $zerobeginB <= 32'b0;endelsebeginB <= register[rB];end endendmodule測試文件tb_reg_files_1.v
`timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2020/11/27 10:11:14 // Design Name: // Module Name: tb_reg_files_1 // Project Name: // Target Devices: // Tool Versions: // Description: // // Dependencies: // // Revision: // Revision 0.01 - File Created // Additional Comments: // //module tb_reg_files_1;// reg_files_1 Parameters parameter PERIOD = 10;// reg_files_1 Inputs reg clk = 0 ; reg rst_n = 1 ; reg [4:0] rA = 0 ; reg [4:0] rB = 0 ; reg [4:0] rW = 0 ; reg [31:0] writeData = 0 ; reg RegWrite = 0 ;// reg_files_1 Outputs wire [31:0] A ; wire [31:0] B ;initial beginforever#(PERIOD/2) clk=~clk; endinitial begin#(PERIOD*2) rst_n = 0; endreg_files_1 u_reg_files_1 (.clk ( clk ),.rst_n ( rst_n ),.rA ( rA [4:0] ),.rB ( rB [4:0] ),.rW ( rW [4:0] ),.writeData ( writeData [31:0] ),.RegWrite ( RegWrite ),.A ( A [31:0] ),.B ( B [31:0] ));initial begin#20RegWrite = 1;rW = 0;writeData = 32'hff;#10rW = 1;writeData = 32'hff;#10rA = 1;#10rB = 1;#10rA = 0;rB = 0; endendmodule初步功能仿真成功!
9 連接已有器件
9.1 增加ROM
使用IP核,參考東南大學計算機系統設計MOOC9.1節的做法。
9.2 將已有部件連接起來!
`timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2020/11/27 11:41:34 // Design Name: // Module Name: datapath_1 // Project Name: // Target Devices: // Tool Versions: // Description: 僅僅實現了幾個簡單的R類指令的最簡單的數據通路,不與外界交互 // // Dependencies: // // Revision: // Revision 0.01 - File Created // Additional Comments: // //module datapath_1(input clk,input rst_n);/******** PC ********/// pc_1 Outputs wire [31:0] pcOld;pc_1 u_pc_1 (.clk ( clk ),.rst_n ( rst_n ),.pcNew ( pcOld ), // pcNew = pcOld + 4; no selection.pcOld ( pcOld ));/******** Instruction ROM ********/// blk_mem_gen_0 Inputs wire [13:0] addra = pcOld[15:2];// blk_mem_gen_0 Outputs // instructions wire [31:0] instruction;blk_mem_gen_0 u_blk_mem_gen_0 (.clka ( clk ),.addra ( addra ),.douta ( instruction ));/******** Reg Files ********/// reg_files_1 Inputs wire [4:0] rA = instruction[25:21]; wire [4:0] rB = instruction[20:16]; wire [4:0] rW = instruction[15:11]; wire [31:0] writeData; wire RegWrite;// reg_files_1 Outputs wire [31:0] A; wire [31:0] B;reg_files_1 u_reg_files_1 (.clk ( clk ),.rst_n ( rst_n ),.rA ( rA ),.rB ( rB ),.rW ( rW ),.writeData ( writeData ),.RegWrite ( RegWrite ),.A ( A ),.B ( B ) );/******** ALU ********/// ALU_1 Inputs // wire [31:0] A; // wire [31:0] B; wire [3:0] ALUop;// ALU_1 Outputs wire [31:0] ALUresult = writeData;ALU_1 u_ALU_1 (.A ( A ),.B ( B ),.ALUop ( ALUop ),.ALUresult ( ALUresult ) );/******** controler ********/// control_1 Inputs wire [5:0] op = instruction[31:26]; wire [5:0] func = instruction[5:0];// control_1 Outputs // wire RegWrite // wire [3:0] ALUop;control_1 u_control_1 (.op ( op ),.func ( func ),.RegWrite ( RegWrite ),.ALUop ( ALUop ) );endmodule9.3 測試我們的數據通路
注意賦值的是i而不是0了。
測試文件如下
`timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2020/11/27 12:12:14 // Design Name: // Module Name: tb_datapath_1 // Project Name: // Target Devices: // Tool Versions: // Description: // // Dependencies: // // Revision: // Revision 0.01 - File Created // Additional Comments: // //module tb_datapath_1;// datapath_1 Parameters parameter PERIOD = 10;// datapath_1 Inputs reg clk = 0 ; reg rst_n = 1 ;// datapath_1 Outputsinitial beginforever #(PERIOD/2) clk=~clk; endinitial begin#(PERIOD*2) rst_n = 0; enddatapath_1 u_datapath_1 (.clk ( clk ),.rst_n ( rst_n ) );endmoduleRTL優化
測試指令如下
以上錯誤!因為一次性連接了太多器件,不符合單元測試原則,重新開始,重要的是,ROM的IP核沒有測試!
9.4 構建取值模塊
我們先把PC和ROM連接起來測試。
然后發現……很詭異,PC似乎對ROM不起作用?
這個IP核……居然有延遲??不是瞬間取得指令……需要等一個周期后,再等待上升沿,才能取指。也就是說,ROM的取指需要等待一個額外的時鐘周期,這才是真實世界。
9.5 插敘:帶延遲的ROM
實際上,訪存時間更長,取指比較慢,這個事實我們都知道,現在,我們真地面臨這個問題了。
理想取指的時序圖,與帶一個時鐘周期延遲的時序圖,是不一樣的!
在單周期CPU中
- 理想瞬間取指,那么更新PC值需要是下降沿,而寫寄存器堆需要是上升沿
- 帶一個時鐘周期延遲的,就可以都是上升沿,因為取下一條指令的過程占一個時鐘周期,此時CPU就講當前指令執行完了,也就是取下一條指令和CPU執行當前指令,同步進行。
特別注意:默認值0的指令會比較詭異
在我們的設計中,pc默認是0,因此……0號地址的指令會被直接取出來,但是如果沒有復位也是不能指令的,這個情況下,其實可以用nop指令(全是0)作為0號地址的指令。
9.6 完整數據通路的實現與測試
讓我們返回看看。
datapath_1.v
`timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2020/11/27 11:41:34 // Design Name: // Module Name: datapath_1 // Project Name: // Target Devices: // Tool Versions: // Description: 僅僅實現了幾個簡單的R類指令的最簡單的數據通路,不與外界交互 // // Dependencies: // // Revision: // Revision 0.01 - File Created // Additional Comments: // //module datapath_1(input clk,input rst_n);/******** PC ********/// pc_1 Outputs wire [31:0] pcOld;pc_1 u_pc_1 (.clk ( clk ),.rst_n ( rst_n ),.pcNew ( pcOld ), // pcNew = pcOld + 4; no selection.pcOld ( pcOld ));/******** Instruction ROM ********/// blk_mem_gen_0 Inputs wire [13:0] addra = pcOld[15:2];// blk_mem_gen_0 Outputs // instructions wire [31:0] instruction;blk_mem_gen_0 u_blk_mem_gen_0 (.clka ( clk ),.addra ( addra ),.douta ( instruction ));/******** Reg Files ********/// reg_files_1 Inputs wire [4:0] rA = instruction[25:21]; wire [4:0] rB = instruction[20:16]; wire [4:0] rW = instruction[15:11]; wire [31:0] writeData; wire RegWrite;// reg_files_1 Outputs wire [31:0] A; wire [31:0] B;reg_files_1 u_reg_files_1 (.clk ( clk ),.rst_n ( rst_n ),.rA ( rA ),.rB ( rB ),.rW ( rW ),.writeData ( writeData ),.RegWrite ( RegWrite ),.A ( A ),.B ( B ));/******** ALU ********/// ALU_1 Inputs // wire [31:0] A; // wire [31:0] B; wire [3:0] ALUop;// ALU_1 Outputs // wire [31:0] ALUresult = writeData;【】【為什么不能用?】ALU_1 u_ALU_1 (.A ( A ),.B ( B ),.ALUop ( ALUop ),.ALUresult ( writeData ));/******** controler ********/// control_1 Inputs wire [5:0] op = instruction[31:26]; wire [5:0] func = instruction[5:0];// control_1 Outputs // wire RegWrite // wire [3:0] ALUop;control_1 u_control_1 (.op ( op ),.func ( func ),.RegWrite ( RegWrite ),.ALUop ( ALUop ));endmoduleRTL優化
測試文件 tb_datapath_1.v
`timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2020/11/27 12:12:14 // Design Name: // Module Name: tb_datapath_1 // Project Name: // Target Devices: // Tool Versions: // Description: // // Dependencies: // // Revision: // Revision 0.01 - File Created // Additional Comments: // //module tb_datapath_1;// datapath_1 Parameters parameter PERIOD = 10;// datapath_1 Inputs reg clk = 0 ; reg rst_n = 1 ;// datapath_1 Outputsinitial beginforever #(PERIOD/2) clk=~clk; endinitial begin#(PERIOD*2) rst_n = 0; enddatapath_1 u_datapath_1 (.clk ( clk ),.rst_n ( rst_n ) );endmodule仿真結果
測試指令
指令編碼
00000000 00430820 00811021 00412022 00832823 00e83024 00c83825 00c83826 00e64027 016c502a 018b502b 01a56004 01a56006 01e57007注意事項
10 驚人的事實:我們已經構建了完整的數據通路
你可能感到驚訝,但這就是事實,我們已經,構建好了一個CPU,并且它能夠執行13條指令!
這簡直太酷了不是嗎!難以想象……你可能會說?這……就完成了?是的沒錯,如果我們只需要13條指令的CPU,并且不需要與外界交互的話,真的已經完成了,當然……這個CPU沒什么價值,不過后續我們會改進它的不是嗎?這很有趣的!
我們會一步步地完成一個完整的CPU,最終變成五級流水線CPU,這簡直太棒了!讓我們一起加油!
來看看示意圖,注意,只是示意圖,pc的位寬并不是標準的32位而是8位,總之,這就是完整的數據通路了。
只不過這個CPU還不能與外界交互……但是,它的確能夠執行指令了不是嗎?后續我們慢慢改進就是了。
10.1 構建我們的第一個CPU
在上面我們已經運行測試過了,不再重復。
綜合實現看下面:
實踐筆記(2)插敘:綜合與實現
10.2 值得優化的點
在有些時候,我們的指令沒有準備好,但是Reg已經讀取出去了,可能有隱患,我們可以給Reg Files加上讀使能信號,但是本次不加了。
11 數據流建模傳輸問題:不止連線
數據流建模傳輸問題:賦值傳輸有方向
經驗教訓,RTL建模看不出來傳輸方向! 行為仿真很必要呀!
12 取指延遲
我們都知道,訪存是很慢的(相比于CPU執行),在本次示例中,ROM取指,需要2個時鐘周期,因此,我們的單周期CPU,更新PC和更新寄存器堆,都可以上升沿觸發。
PC也能夠保存下一條指令的地址,在取下一條指令的同時,當前指令也在執行,取完下一條指令,當前指令也執行完成了。
我們看時序圖,從PC更新,到取得PC對應的指令,需要2個時鐘周期。
也就是說,向內存發出指令地址之后,需要兩個時鐘周期,指令才能被取得,在此期間,CPU內的指令還是原來的指令,該指令也已經在一個時鐘周期執行完成,執行一條指令需要三個時鐘周期。
你可能疑惑,那pc每個時鐘周期更新一次,兩個時鐘周期才能夠取到指令,不會沖突嗎?當然不會。想象一下高速公路的汽車! pc發出的時間不一樣,是可以排隊的,沒關系的,不會超車插隊,另外,數據變化需要時間的,暫時淺顯理解即可。
13 疑惑點
當取指非常慢的時候,由應該如何處理?此時如果仍然每個周期PC + 4,但是10個周期(假設)才能取指,是否仍然可行?
我們試試,將周期改為2ns,也就是500MHz的時鐘頻率。
好吧……看起來沒有問題,這個問題以后再解決。
500MHz都沒問題了,那基本就沒事了其實。
開發板使用的100MHz,也就是時鐘周期是10ns,足夠滿足本科階段需求了,這個細節問題目前不需要關注,無傷大雅,應當先抓住主要矛盾。
總結
以上是生活随笔為你收集整理的【计算机系统设计】实践笔记(2)数据通路构建:第一类R型指令分析(2)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 打胎不孕不育
- 下一篇: 问一个超级新手的问题,关于css百分比