内核中的kmalloc函数详解
一、kmalloc函數詳解?
#include <linux/slab.h> void *kmalloc(size_t size, int flags);
給 kmalloc 的第一個參數是要分配的塊的大小. 第 2 個參數, 分配標志, 非常有趣, 因為它以幾個方式控制 kmalloc 的行為.
最一般使用的標志, GFP_KERNEL, 意思是這個分配((內部最終通過調用 __get_free_pages 來進行, 它是 GFP_ 前綴的來源) 代表運行在內核空間的進程而進行的. 換句話說, 這意味著調用函數是代表一個進程在執行一個系統調用. 使用 GFP_KENRL 意味著 kmalloc 能夠使當前進程在少內存的情況下睡眠來等待一頁. 一個使用 GFP_KERNEL 來分配內存的函數必須, 因此, 是可重入的并且不能在原子上下文中運行. 當當前進程睡眠, 內核采取正確的動作來定位一些空閑內存, 或者通過刷新緩存到磁盤或者交換出去一個用戶進程的內存.
GFP_KERNEL 不一直是使用的正確分配標志; 有時 kmalloc 從一個進程的上下文的外部調用. 例如, 這類的調用可能發生在中斷處理, tasklet, 和內核定時器中. 在這個情況下, 當前進程不應當被置為睡眠, 并且驅動應當使用一個 GFP_ATOMIC 標志來代替. 內核正常地試圖保持一些空閑頁以便來滿足原子的分配. 當使用 GFP_ATOMIC 時, kmalloc 能夠使用甚至最后一個空閑頁. 如果這最后一個空閑頁不存在, 但是, 分配失敗.其他用來代替或者增添 GFP_KERNEL 和 GFP_ATOMIC 的標志, 盡管它們 2 個涵蓋大部分設備驅動的需要. 所有的標志定義在 <linux/gfp.h>, 并且每個標志用一個雙下劃線做前綴, 例如 __GFP_DMA. 另外, 有符號代表常常使用的標志組合; 這些缺乏前綴并且有時被稱為分配優先級. 后者包括:
GFP_ATOMIC
??? 用來從中斷處理和進程上下文之外的其他代碼中分配內存. 從不睡眠.
GFP_KERNEL
??? 內核內存的正常分配. 可能睡眠.
GFP_USER
??? 用來為用戶空間頁來分配內存; 它可能睡眠.
GFP_HIGHUSER
??? 如同 GFP_USER, 但是從高端內存分配, 如果有. 高端內存在下一個子節描述.
GFP_NOIO
GFP_NOFS
??? 這個標志功能如同 GFP_KERNEL, 但是它們增加限制到內核能做的來滿足請求. 一個 GFP_NOFS 分配不允許進行任何文件系統調用, 而 GFP_NOIO 根本不允許任何 I/O 初始化. 它們主要地用在文件系統和虛擬內存代碼, 那里允許一個分配睡眠, 但是遞歸的文件系統調用會是一個壞注意.
上面列出的這些分配標志可以是下列標志的相或來作為參數, 這些標志改變這些分配如何進行:
__GFP_DMA
??? 這個標志要求分配在能夠 DMA 的內存區. 確切的含義是平臺依賴的并且在下面章節來解釋.
__GFP_HIGHMEM
??? 這個標志指示分配的內存可以位于高端內存.
__GFP_COLD
??? 正常地, 內存分配器盡力返回"緩沖熱"的頁 -- 可能在處理器緩沖中找到的頁. 相反, 這個標志請求一個"冷"頁, 它在一段時間沒被使用. 它對分配頁作 DMA 讀是有用的, 此時在處理器緩沖中出現是無用的. 一個完整的對如何分配 DMA 緩存的討論看"直接內存存取"一節在第 1 章.
__GFP_NOWARN
??? 這個很少用到的標志阻止內核來發出警告(使用 printk ), 當一個分配無法滿足.
__GFP_HIGH
??? 這個標志標識了一個高優先級請求, 它被允許來消耗甚至被內核保留給緊急狀況的最后的內存頁.
__GFP_REPEAT
__GFP_NOFAIL
__GFP_NORETRY
??? 這些標志修改分配器如何動作, 當它有困難滿足一個分配. __GFP_REPEAT 意思是" 更盡力些嘗試" 通過重復嘗試 -- 但是分配可能仍然失敗. __GFP_NOFAIL 標志告訴分配器不要失敗; 它盡最大努力來滿足要求. 使用 __GFP_NOFAIL 是強烈不推薦的; 可能從不會有有效的理由在一個設備驅動中使用它. 最后, __GFP_NORETRY 告知分配器立即放棄如果得不到請求的內存.
??? kmalloc 能夠分配的內存塊的大小有一個上限. 這個限制隨著體系和內核配置選項而變化. 如果你的代碼是要完全可移植, 它不能指望可以分配任何大于 128 KB. 如果你需要多于幾個 KB, 但是, 有個比 kmalloc 更好的方法來獲得內存, 我們在本章后面描述.
??? 這方面的原因:
??? kmalloc并不直接從分頁機制中獲得空閑頁面而是從slab頁面分配器那兒獲得需要的頁面,slab的實現代碼限制了最大分配的大小為 128k,即131072bytes,理論上你可以通過更改slab.c中的 cache_sizes數組中的最大值使得kmalloc可以獲得更大的頁面數,不知道有沒有甚么副效應或者沒有必要這樣做,因為獲取較大內存的方法有很多,想必128k是經驗總結后的合適值。
??? alloc_page( )可以分配的最大連續頁面是4M吧。MAX_ORDER =10
??? static inline struct page * alloc_pages(unsigned int gfp_mask, unsigned int order)
??? {
??? /*
??? * Gets optimized away by the compiler.
??? */
??? if (order >= MAX_ORDER)
??? return NULL;
??? return _alloc_pages(gfp_mask, order);
??? }
alloc_pages最大分配頁面數為512個,則可用內存數最大為2^9*4K=2M???
二、內核內存的知識?
?? 對于提供了MMU(存儲管理器,輔助操作系統進行內存管理,提供虛實地址轉換等硬件支持)的處理器而言,Linux提供了復雜的存儲管理系統,使得進程所能訪問的內存達到4GB。
進程的4GB內存空間被人為的分為兩個部分--用戶空間與內核空間。用戶空間地址分布從0到3GB(PAGE_OFFSET,在0x86中它等于0xC0000000),3GB到4GB為內核空間。
內核空間中,從3G到vmalloc_start這段地址是物理內存映射區域(該區域中包含了內核鏡像、物理頁框表mem_map等等),比如我們使用的 VMware虛擬系統內存是160M,那么3G~3G+160M這片內存就應該映射物理內存。在物理內存映射區之后,就是vmalloc區域。對于 160M的系統而言,vmalloc_start位置應在3G+160M附近(在物理內存映射區與vmalloc_start期間還存在一個8M的gap 來防止躍界),vmalloc_end的位置接近4G(最后位置系統會保留一片128k大小的區域用于專用頁面映射)kmalloc和get_free_page申請的內存位于物理內存映射區域,而且在物理上也是連續的,它們與真實的物理地址只有一個固定的偏移,因此存在較簡單的轉換關系,virt_to_phys()可以實現內核虛擬地址轉化為物理地址:
??? #define __pa(x) ((unsigned long)(x)-PAGE_OFFSET)
??? extern inline unsigned long virt_to_phys(volatile void * address)
??? {
??????? return __pa(address);
??? }
上面轉換過程是將虛擬地址減去3G(PAGE_OFFSET=0XC000000)。
與之對應的函數為phys_to_virt(),將內核物理地址轉化為虛擬地址:
??? #define __va(x) ((void *)((unsigned long)(x)+PAGE_OFFSET))
??? extern inline void * phys_to_virt(unsigned long address)
??? {
??????? return __va(address);
??? }
virt_to_phys()和phys_to_virt()都定義在include/asm-i386/io.h中。
而vmalloc申請的內存則位于vmalloc_start~vmalloc_end之間,與物理地址沒有簡單的轉換關系,雖然在邏輯上它們也是連續的,但是在物理上它們不要求連續。
我們用下面的程序來演示kmalloc、get_free_page和vmalloc的區別:
#include <linux/module.h>
#include <linux/slab.h>
#include <linux/vmalloc.h>
MODULE_LICENSE("GPL");
unsigned char *pagemem;
unsigned char *kmallocmem;
unsigned char *vmallocmem;
int __init mem_module_init(void)
{
//最好每次內存申請都檢查申請是否成功
//下面這段僅僅作為演示的代碼沒有檢查
pagemem = (unsigned char*)get_free_page(0);
printk("<1>pagemem addr=%x", pagemem);
kmallocmem = (unsigned char*)kmalloc(100, 0);
printk("<1>kmallocmem addr=%x", kmallocmem);
vmallocmem = (unsigned char*)vmalloc(1000000);
printk("<1>vmallocmem addr=%x", vmallocmem);
return 0;
}
void __exit mem_module_exit(void)
{
free_page(pagemem);
kfree(kmallocmem);
vfree(vmallocmem);
}
module_init(mem_module_init);
module_exit(mem_module_exit);
我們的系統上有160MB的內存空間,運行一次上述程序,發現pagemem的地址在0xc7997000(約3G+121M)、kmallocmem 地址在0xc9bc1380(約3G+155M)、vmallocmem的地址在0xcabeb000(約3G+171M)處,符合前文所述的內存布局。
?
參考:
1、http://blog.chinaunix.net/u/19782/showart_282318.html
2、http://blog.chinaunix.net/u2/79914/showart_1905549.html
總結
以上是生活随笔為你收集整理的内核中的kmalloc函数详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 前后端分离,如何解决跨域问题
- 下一篇: i茅台app上线首日,直接冲到了App