日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

内存映射MMAP和DMA【转】

發布時間:2024/4/13 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 内存映射MMAP和DMA【转】 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉自:http://blog.csdn.net/zhoudengqing/article/details/41654293

版權聲明:本文為博主原創文章,未經博主允許不得轉載。

這一章介紹Linux內存管理和內存映射的奧秘。同時講述設備驅動程序是如何使用“直接內存訪問”(DMA)的。盡管你可能反對,認為DMA更屬于硬件處理而不是軟件接口,但我覺得與硬件控制比起來,它與內存管理更相關。

這一章比較高級;大多數驅動程序的作者并不需要太深入到系統內部。不過理解內存如何工作可以幫助你在設計驅動程序時有效地利用系統的能力。

Linux中的內存管理

這一節不是描述操作系統中內存管理的理論,而是關注于這個理論在Linux實現中的主要特征。本節主要提供一些信息,跳過它不會影響您理解后面一些更面向實現的主題。

頁表

當一個程序查一個虛地址時,處理器將地址分成一些位域(bit field)。每個位域被用來索引一個稱做頁表的數組,以獲得要么下一個表的地址,要么是存有這個虛地址的物理頁的地址。

為了進行虛地址到物理地址的映射,Linux核心管理三級頁表。開始這也許會顯得有些奇怪。正如大多數PC程序員所知道的,x86硬件只實現了兩級頁表。事實上,大多數Linux支持的32位處理器實現兩級,但不管怎樣核心實現了三級。

在處理器無關的實現中使用三級,使得Linux可以同時支持兩級和三級(如Alpha)的處理器,而不必用大量的#ifdef語句把代碼攪得一團糟。這種“保守編碼”方式并不會給核心在兩級處理器上運行時帶來額外的開銷,因為實際上,編譯器已經把沒用的一級優化掉了。

但是讓我們看一會兒實現換頁的數據結構。為了跟上討論,你應該記住大多數用作內存管理的數據都采用unsigned long的內部表示,因為它們所表示的地址不會再被復引用。

下述幾條總結了Linux的三級實現,由圖13-1示意:

l?????一個“頁目錄(Page Directory,PGD)”是頂級頁表。PGD是由pgd_t項所組成的數組,每一項指向一個二級頁表。每個進程都有它自己的頁目錄,你可以認為頁目錄是個頁對齊的pgd_t數組。

l?????二級表被稱做“中級頁目錄(Page Mid_level Directory)”或PMD。?PMD是一個頁對齊的pmd_t數組。每個pmd_t是個指向三級頁表的指針。兩級的處理器,如x86和sparc_4c,沒有物理PMD;它們將PMD聲明為只有一個元素的數組,這個元素的值就是PMD本身——馬上我們將會看到C語言是如何處理這種情況以及編譯器是如何把這一級優化掉的。

l?????再下一級被簡單地稱為“頁表(Page Table)”。同樣地,它也是一個頁對齊的數組,每一項被稱為“頁表項(Page Table Entry)”。核心使用pte_t類型表示每一項。pte_t包含數據頁的物理地址。

上面提到的類型都在<asm/page.h>中定義,每個與換頁相關的源文件都必須包含它。

核心在一般程序執行時并不需要為頁表查尋操心,因為這是有硬件完成的。不過,核心必須將事情組織好,硬件才能正常工作。它必須構造頁表,并在處理器報告一個頁面錯時(即當處理器需要的虛地址不在內存中時)查找頁表,。

下面的符號被用來訪問頁表。<asm/page.h>和<asm/pgtable.h>必須被包含以使它們可以被訪問。

(Figure 13.1 Linux的三級頁表)

PTRS_PER_PGD

PTRS_PER_PMD

PTRS_PER_PTE

每個頁表的大小。兩級處理器置PTRS_PER_PMD為1,以避免處理中級。

unsigned long pgd_bal(pgd_t pgd)

unsigned long pmd_val(pmd_t pmd)

unsigned long pte_val(pte_t pte)

這三個宏被用來從有類型數據項中獲取無符號長整數值。這些宏通過在源碼中使用嚴格的數據類型有助于減小計算開銷。

pgd_t *pgd_offset(struct mm_struct *mm,unsigned long address)

pmd_t *pmd_offset(pgd_t *dir,unsigned long address)

pte_t *pte_offset(pmd_t *dir,unsigned long address)

這些線入函數是用于獲取與address相關聯的pgd,pmd和pte項。頁表查詢從一個指向結構mm_struct的指針開始。與當前進程內存映射相關聯的指針是current->mm。指向核心空間的指針由init_mm描述,它沒有被引出到模塊,因為它們不需要它。兩級處理器定義pmd_offset(dir,add)為(pmd_t*?)dir,這樣就把pmd折合在pgd上。掃描頁表的函數總是被聲明為inline,而且編譯器優化掉所有pmd查找。

unsigned long pte_page(pte_t pte)

這個函數從頁表項中抽取物理頁的地址。使用pte_val(pte)并不可行,因為微處理器使用pte的低位存貯頁的額外信息。這些位不是實際地址的一部分,而且需要使用pte_page從頁表中、抽取實際地址。

pte_present(pte_t pte)

這個宏返回布爾值表明數據頁當前是否在內存中。這是訪問pte低位的幾個函數中最常用的一個——這些低位被pte_page丟棄。有趣的是注意到不論物理頁是否在內存中,頁表始終在(在當前的Linux實現中)。這簡化了核心代碼,因為pgd_offset及其它類似函數從不失敗;另一方面,即使一個有零“駐留存貯大小”的進程也在實際RAM中保留它的頁表。

僅僅看看這些列出的函數不足以使你對Linux的內存管理算法熟悉起來;實際的內存管理要復雜的多,而且還要處理其它一些繁雜的事,如高速緩存一致性。不過,上面列出的函數足以給你一個關于頁面管理實現的初步印象;你可以從核心源碼的include/asm和mm子樹中得到更好的信息。

虛擬內存區域

盡管換頁位于內存管理的最低層,你在能有效地使用計算機資源之前還需要一些別的知識。核心需要一種更高級的機制處理進程看到它的內存方式。這種機制在Linux中以“虛擬內存區域的方式實現,我稱之為“區域”或“VMA”。

一個區域是在一個進程的虛存中的一個同質區間,一個具有同樣許可標志的地址的連續范圍。它與“段”的概念松散對應,盡管最好還是將其描述為“具有自己屬性的內存對象”。一個進程的內存映象由下面組成:一個程序代碼(正文)區域;一個數據、BSS(未初始化的數據)和棧區域;以及每個活動的內存映射的區域。一個進程的內存區域可以通過查看/proc/pid/maps看到。/proc/self是/proc/pid的特殊情況,它總是指向當前進程,做為一個例子,下面是三個不同的內存映象,我在#字號后面加了一些短的注釋:

(代碼271)

每一行的域為:

start_end perm offset major:minor inode

perm代表一個位掩碼包括讀、寫和執行許可;它表示對屬于這個區域的頁,允許進程做什么。這個域的最后一個字符要么是p表示私有的,要么是s表示共享的。

/proc/*/maps的每個域對應著結構vm_area_struct的一個域,我們將在下面描述這個結構。

實現mmap的方法的驅動程序需要填充在映射設備的進程地址空間中的一個VMA結構。因此,驅動程序的作者對VMA應該有個最起碼的理解以便使用它們。

讓我們看一下結構vm_area_struct(在<linux/mm.h>)中最重要的幾個域。這些域可能在設備驅動程序的mmap實現中被用到。注意核心維護VMA的列表和樹以優化區域查找,vm_area_struct的幾個域被用來維護這個組織。VMA不能按照驅動程序的意愿被產生,不然結構將會崩潰。VMA的幾個主要域如下:

unsigned long vm_start

unsigned long vm_end

一個VMA描述的虛地址介于vma->vm_start和vma->vm_end之間。這兩個域是/pro/*/maps中顯示的最先兩個域。

struct inode *vm_inode

如果這個區域與一個inode相關聯(如一個磁盤文件或一個設備節點),這個域是指向這個inode的指針。不然,它為NULL。

unsigned long vm_offset

inode中這個區域的偏移量。當一個文件或設備被映射時,這是映射到這個區域的第一個字節的文件的位置(filp->f_ops)。

struct vm_operations_struct *vm_ops

vma->vm_ops說明這個內存區域是一個核心“對象”,就象我們在本書中一直在用的結構file。這個區域聲明在其內容上操作的“方法”,這個域就是用來列出這些方法。

和結構vm_area_struct一樣,vm_operations_struct在<linux/mm.h>中定義;它包括了列在下面的操作。這些操作是處理進程內存需要的所有操作,它們以被聲明的順序列出。列出的原型是2.0的,與1.2.13的區別在每一項中都有描述。在本章的后面,這些函數中的部分會被實現,那時會更完全地加以描述。

void(*open)(struct vm_area_struct??*vma);

在核心生成一個VMA后,它就把它打開。當一個區域被復制時,孩子從父親那里繼承它的操作,就區域用vm->open打開。例如,當fork將存在進程的區域復制到新的進程時,vm_ops->open被調用以打開所有的映象。另一方面,只要mmap執行,區域在file->f_ops->mmap被調用前被產生,此時不調用vm_ops->open。

void(*close)(struct vm_area_struct *vma);

當一個區域被銷毀時,核心調用它的close操作。注意VMA沒有相關的使用計數;區域只被打開和關閉一次。

void(*unmap)(struct vm_area_struct *vma,unsigned long addr,size_t len);

核心調用這個方法取消一個區域的部分或全部映射。如果整個區域的映射被取消,核心在vm_ops->unmap返回后立即調用vm_ops->close。

void (*protect)(struct vm_area_struct *vma,unsigned long,size_t,unsigned int new prot);

當前未被使用。許可(保護)位的處理并不依賴于區域本身。

int(*sync)(struct vm_area_struct *vma,unsigned long,size_t,unsigned int flags);

這個方法被msync系統調用以將一個臟的內存區段保存到存貯介質上。如果成功則返回值為0?,如果有錯,則返回一個負數。核心版本1.2讓這個方法返回void,因為這個函數不被認為會失敗。

void(*advise)(struct vm_area_struct *vma,unsigned long,size_t,unsigned int advise);

當前未被使用。

unsigned long(*nopage)(struct vm_area_struct *vma,unsigned long address,int write_access);

當一進程試圖訪問屬于另一個有效VMA的某頁,而該頁當前不在內存時,nopage方法就會被調用,如果它為相關區域定義。這個方法返回該頁的(物理)地址。如果這個方法不為這個區域所定義,核心會分配一個空頁。通常,驅動程序并不實現nopage,因為被一個驅動程序映射的區段往往被完全映射到系統物理地址。核心版本1.2的nopage具有一個不同的原型和不同的含義。第三個參數write_access被當做“不共享”——一個非零值意味著該頁必須被當前進程所有,而零則表示共享是可能的。

unsigned long(*wppage)(struct vm_area_struct *vma,unsigned long address,unsigned long page);

這個方法處理“寫保護”頁面錯,但目前不被使用。核心處理所有不調用區域特定的回調函數卻往一個被保護的頁面上寫的企圖。寫保護被用來實現“寫時拷貝(copy_on_write)”。一個私有的頁可以被不同進程所共享,直到其中一個進程試圖寫它時。當這種情況發生時,頁面被克隆,進程向自己的頁拷貝上寫。如果整個區域被稱為只讀,會有一SIGSEGV信息被發送給進程,寫時拷貝就未能完成。

int (*swapout)(struct vm_area_struct *vma,unsigned long offset,pte_t *page_table);

這個方法被用來從交換空間取得一頁。參數offset是相對區域而言(與上面swapout一樣),而entry是頁面的當前pte——如果swapout在這一項中保存了一些信息,那么現在就可以用這些信息來取得該頁。

一般說來,驅動程序并不需要去實現swapout或swapin,因為驅動程序通常映射I/O內存,而不是常規內存。I/O頁是一些象訪問內存一樣訪問的物理地址,但被映射到設備硬件而不是RAM上。I/O內存區段或者被標記為“保留”,或者居于物理內存之上,因此它們從不被換出—交換I/O內存沒什么實際意義。

內存映象

在Linux中還有與內存管理相關的第三個數據結構。VMA和頁表組織虛擬地址空間,而物理地址空間則由內存映象概括。

核心需要物理內存當前使用情況的一個描述。由于內存可以被看作是頁面數組,因此這個信息也可以組織為一個數組。如果你需要其頁面的信息,你就用其物理地址去訪問內存映象。下面就是核心代碼用來訪問內存映象的一些符號:

typedef struct {/*…*/} mem_map_t

extern mem_map_t mem_map[];

映象本身是mem_map_t的一個數組。系統中的每個物理頁,包括核心代碼和核心數據,都在mem_map中有一項。

PAGE_OFFSET

這個宏表示由物理地址映射到的核心地址空間中的虛地址。PAGE_OFFSET在任何用到“物理”地址的地方都必須要考慮。核心認為的物理地址實際上是一個虛擬地址,從實際物理地址偏移PAGE_OFFSET——這個實際物理地址是在CPU外的電氣地址線使用。在Linux2.0.x中,PAGE_OFFSET在PC上都是零,在大多數其它平臺上都不是零。2.1.0版修改了PC上的實現,所以它現在也使用偏移映射。如果考慮到核心代碼,將物理空間映射到高的虛擬地址有一些好處,但這已經超出了本書的范圍。

int??MAP_NR(addr)

當程序需要訪問一個內存映象時,MAP_NR返回在與addr關聯的mem_map數組中的索引。參數addr可以是unsigned long,也可以是一個指針。因為這個宏被幾個關鍵的內存管理函數使用多次,所以它不進行addr的有效性檢查;調用代碼在必要的時候必須自己進行檢查。

((nr<<PAGE_SHIFT)+PAGE_OFFSET)

沒有標準化的函數或者宏可以將一個映象號轉譯為一個物理地址。如果你需要MAP_NR的逆函數,這個語句可以使用。

內存映象是用來為每個內存頁維護一些低級信息。在核心開發過程中,內存映象結構的準確定義變過幾次,你不必了解細節,因為驅動程序不期望查看映象內部。

不過,如果你對了解頁面管理的內部感興趣的話,頭文件<linux/mm.h>含有一大段注釋解釋mem_map_t域的含義。

mmap設備操作

內存映象是現代Unix系統中最有趣的特征之一。至于驅動程序,內存映射可以提供用戶程序對設備內存的直接訪問。

例如,一個簡單ISA抓圖器將圖象數據保存在它自己的內存中,或者在640KB-1KB地址范圍,或者在“ISA洞”(指14MB-16MB之間的范圍參見第8章“硬件管理”中“訪問設備板子上的內存”一節)中。

將圖象數據復制到常規(并且更快)RAM中是不定期抓圖的合適的方法,但如果用戶程序需要經常性地訪問當前圖象,使用mmap方法將更合適。

映射一個設備的意思是使用戶空間的一段地址空間關聯到設備內存上。當程序讀寫指定的地址范圍時,它實際上是在訪問設備。

正如你所懷疑的,并不是每個設備都適合mmap概念;例如,對于串口或其它面向流的設備來說它的確沒有意義。mmap的另一個限制是映射是以PAGE_SIZE為單位的。核心只能在頁表一級處置虛地址,因此,被映射的區域必須是PAGE_SIZE的整數倍,而且居于頁對齊的物理內存。核心通過使一個區段稍微大一點兒的辦法解決了頁面粒度問題。對齊的問題通過使用vma->vm_offset來處理,但這對于驅動程序并不可行——映射一個設備簡化為訪問物理頁,它必須是頁對齊的。

這些限制對驅動程序來說并不是很大的問題,因為不管怎樣,訪問設備的程序是設備相關的。它知道如何使得被映射的內存區段有意義,因此頁對齊不是一個問題。當你ISA板子插到一個Alpha機器上時,有一個更大的限制,因為ISA內存是以8位、16位或32位項的散布集合被訪問的,沒有從ISA地址到Alpha地址的直接映射。在這種情況下,你根本不能使用mmap。不能進行ISA地址到Alpha地址的直接映射歸因于兩種系統數據傳送規范的不兼容。Alpha只能進行32位和64位的內存訪問,而ISA只能進行8位和16位的傳送,沒有辦法透明地從一個協議映射到另一個。結果是你根本不能對插在Alpha計算機的ISA板子使用mmap。

當可行的時候,使用mmap有一些好處。例如,一個類似于X服務器的程序從顯存中傳送大量的數據;把圖形顯示映射到用戶空間與lseek/write實現相比,顯著地改善了吞吐率。另一個例子是程序控制PCI設備。大多數PCI外圍設備都將它們的控制寄存映射到內存地址上,一個請求應用更喜歡能直接訪問寄存器,而不是反復調用ioctl來完成任務。

mmap方法是file_oprations結構的一部分,在mmap系統調用被發出時調用。在調用實際方法之前,核心用mmap完成了很多工作,因此,這個方法的原型與系統調用很不一樣。這與其它調用如ioctl和select不同,它們在被調用之前核心并不做太多的工作。

系統調用如下聲明(在mmap(2)手冊中有描述):

mmap(caddr_t,size_t len,int prot,int flags,int fd,off_t offset)

另一方面,文件操作如下聲明:

int?(*mmap)(struct inode*inode,struct file*filp,struct vm_area_struct *vma);

方法中inode和filp參數與第三章“字符設備驅動程序”中介紹的一樣。vma會有用以訪問設備的虛擬地址范圍的信息。這樣,驅動程序只需為這個地址范圍構造合適的頁表:如果需要,用一組新的操作代替vma->vm_ops。

一個簡單的實現

設備驅動程序的大多數mmap實現對居于周邊設備上的某些I/O內存進行線性的映射。/dev/mem和/dev/audio都是這類重映射的例子。下面的代碼來自drivers/char/mem.c,顯示了在一個被稱為simple(Simple Implementation Mapping Pages with Little Enthusiasm)的典型模塊中這個任務是如何完成的:

(代碼277)

很清楚,操作的核心由remap_page_range完成,它被引出到模塊化的驅動程序,因為它做了大多數映射需要做的工作。

維護使用計數

上面給出的實現的主要問題在于驅動程序沒有維護一個與被映射區域的連接。這對/dev/mem來說并不是個問題,它是核心的一個完整的部分,但對于模塊來說必須有一個辦法來保持它的使用計數是最新的。一個程序可以對文件描述符調用close,并仍然訪問內存映射的區段。然而,如果關閉文件描述符導致模塊的使用計數降為零,那么模塊可能被卸載,即使它們仍被通過mmap使用著。

試圖關于這個問題警告模塊的使用者是不充分的解決辦法,因為可能使用kerneld裝載和卸載你的模塊。這個守護進程在模塊的使用計數降為零時自動地去除它們,你當然不能警告kerneld去留神mmap。

這個問題的解決辦法是用跟蹤使用計數的操作取代缺省的vma->vm.ops。代碼相當簡單——用于模塊化的/dev/mem的一個完全的mmap實現如下所示:

(代碼278)

這個代碼依賴于一個事實,即核心在調用f_op->mmap之前將新產生區域中的vm_ops域初始化為NULL。為安全起見以防止在將來的核心發生什么改變,給出的代碼檢查了指針的當前值。

給出的實現利用了一個概念,即open(vma)和close(vma)都是缺省實現的一個補充。驅動程序的方法不須復制打開和關閉的內存區域的標準代碼;驅動程序只是實現額外的管理。

有趣的是注意到,VMA的swapin和swapout方法以另外的方式工作——驅動程序定義的vm_ops->swap*不是添加而是用完全不同的東西取代了缺省實現。

支持mremap系統調用

mremap系統調用被應用程序用來改變映射區段的邊界地址。如果驅動程序希望能支持mremap,以前的實現就不能正確地工作,因為驅動程序沒有辦法知道映射的區域已經改變了。

Linux的mremap實現不提醒驅動程序關于映射區域的改變。實際上,它到是通過unmap方法在區域減小時提醒驅動程序,但在區域變大時沒有回調發出。

將減小告訴驅動程序隱含的基本思想法是驅動程序(或是將常規文件映射到內存的文件系統)需要知道區段什么時候被取消映射了,從而采取適應的動作,如將頁面刷新到磁盤上。另一方面,映射區域的增大對驅動程序來說意義不大。除非調用mremap的程序訪問新的虛地址。在實際情況中,映射從未使用的區段是很常見的(如未使用過的某些程序代碼段)。因此,Linux核心在映射區段增大時并不告訴驅動程序,因為nopage方法將會照管這些頁。如果它們確實被訪問了。

換句話說,當映射區段增大時,驅動程序未被提醒是因為nopage后來會這樣做;從而不必在需要前使用內存。這個優化主要是針對常規文件的,它們使用真正的RAM進行映射。

因此,如果你想支持mremap系統調用,就必須實現nopage。不過,一旦有了nopage,你可選擇廣泛地使用它,從而避免從fops->mmap調用remap_page_range;這在下一個代碼段中給出。在這個mmap的實現中,設備方法只取代了vma->vm_fops。nopage方法負責一次重映射一個頁并返回其地址。

一個支持mremap(為節省空間,不支持使用計數)的/dev/mem實現如下所示:

(代碼279)

(代碼280)

如果nopage方法被留為NULL,處理頁面錯的核心代碼就將零頁映射到出錯虛地址。零頁是一個寫時拷貝頁,被當作零來讀,可以用來映射BSS段。因此,如果一個進程通過調用mremap擴展一個映射區段,并且驅動程序沒有實現nopage,你最終會得到一些零頁,而不是段錯。

注意,給出的實現遠遠不是最優的;如果內存方法能繞過remap_page_range而直接返回物理地址會更好。不幸的是,這個技術的正確實現牽涉到一些細節,只能在本章晚些時候搞清楚。而且上面給出的實現在核心1.2中并不能工作,因為nopage的原型在版本1.2和2.0之間做了修改。在本節中我不打算管1.2核心。

重映射特定的I/O區段

到目前為止,我們所看到的所有例子都是/dev/mem的再次實現;它們將物理地址重映射到用戶空間——或者至少這是它們認為它們所做的。然而,典型的驅動程序只想映射應用于它的外圍設備的小地址區間,并非所有內存。

為了能為一個特定的驅動程序自定義/dev/mem的實現,我們需要進一步來研究一下remap_page_range的內部。這個函數的完整原型是:

int remap_page_range(unsigned long virt_add,unsigned long phy_add,unsigned long size, pgprot_t prot);

這個函數的返回值通常為零或為一個負的錯誤代碼。讓我們看看它的參數的確切含義。

unsigned long virt_add

重映射開始處的虛擬地址。這個函數為虛地址空間virt_add和virt_add+size之間的范圍構造頁表。

unsigned long phys_add

虛擬地址應該映射到的物理地址。這個地址在上面提到的意義下是“物理的”這個函數影響phys_add到phys_add+size之間的物理地址。

unsigned long size

被重映射的區域的大小,以字節為單位。

pgprot_t prot

為新頁所請求的“保護”。驅動程序不必修改保護,而且在vma->vma_page_prot中找到的參數可以不加改變地使用。如果你好奇,你可以在<Linux/mm.h>中找到更多的信息。

為了向用戶空間映射整個內存區間的一個子集,驅動程序需要處理偏移量。下面幾行為映射了從物理地址simple_region_start開始的simple_region_size字節大小的區段的驅動程序完成了這項工作:

(代碼281)

除了計算偏移量,上面的代碼還為錯誤條件引入了兩個檢查。第一個檢查拒絕將一個在物理空間未對齊的位置映射到用戶空間。由于只有完整的頁能被重映射,因此映射的區段只能偏移頁面大小的整數倍。ENXIO是這種情況下通常返回的錯誤代碼,它被展開為“無此設備或地址”。

第二個檢查在程序試圖映射多于目標設備I/O區段可獲得內存的空間時報告一個錯誤。代碼中psize是在偏移被確定后剩下的物理I/O大小,vsize是請求的虛存大小;這個函數拒絕映射超出允許內存范圍的地址。

注意,如果進程調用mremap,它便可以擴展其映射。一個“非常炫耀”的驅動程序可能希望阻止這個發生;達到目的的唯一辦法是實現一個vma->nopage方法。下面是這個方法的最簡單的實現:

unsigned long simple_pedantic_nopage(struct vm_area_struct *vma,unsigned long address, int write_access);

{return 0;}?????/*發送一個SIGBUS*/

如果nopage方法返回0而不是一個有效的物理地址,一個SIGBUS(總線錯)被發送到當前進程(即發生頁面錯的進程)。如果驅動程序沒有實現nopage,進程在請求的虛地址處得到一個零頁;這通常可以接受,因為mremap是個非常少用的系統調用,而且將零頁映射到用戶空間也沒有安全問題。

重映射RAM

在Linux中,物理地址的一頁被標記在內存映象中是“保留的”,表明不被內存管理系統使用。例如在PC上,640KB到1MB之間的部分被稱為“保留的”,它被用來存放核心代碼。

remap_page_range的一個有趣的限制是,它只能給予對保留的頁和物理內存之上的物理地址的訪問。保留頁被鎖在內存中,是僅有的能安全映射到用戶空間的頁;這個限制是系統穩定性的基本要求*。

因此,remap_page_range不允許你重映射常規地址——包括你通過調用get_free_page所獲得的那些。不過,這個函數做了所有一個硬件驅動程序希望它做的,因為它可以重映射高PCI緩沖和ISA內存——包括第1兆內存和15MB處ISA洞,如果在第八章“1M以上的ISA內存”中提到的改變發生了的話。另一方面,當對非保留的頁使用remap_page_range時,缺省的nopage處理程序映射被訪問的虛地址處的零頁。

這個行為可以通過運行mapper看到。mapper是在O’Reilly的FTP站點上提供的文件中misc_programs里的一個示例程序。它是個可以快速測試mmap系統調用的簡單工具。mapper根據命令行選項映射一個文件中的只讀部分,并把映射的區段輸出到標準輸出上。例如,下面這個交互過程表明/dev/mem不映射位于64KB地址處的物理頁(本例中的宿主機是個PC,但在別的平臺上結果應該是一樣的):

(代碼283)

remap_page_range對處理RAM的無能為力說明象scullp這樣的設備不能簡單地實現mmap,因為它的設備內存是常規RAM,而不是I/O內存。

有兩個辦法可以繞過remap_page_range對RAM的不可用性。一個是“糟糕”的辦法,另一個是干凈的。

使用預定位

糟糕的辦法要為你想映射到用戶空間的頁在mem_map[MAP_NR(page)]中置PG_reserved位。這樣就預定了這些頁,而一旦預定了,remap_page_range就可以按期望工作了。設置標志的代碼很短很容易,但我不想在這兒給出來,因為另一個方法更有趣。不用說,不釋放頁面之前,預定的位必須被清除。

有兩個原因說明為什么這是個好辦法。第一,被標為預定的頁永遠不會被內存管理所動。核心在數據結構初始化之前系統引導時確定它們,因此不能用在任何其它用途上。而另一方面,通過get_free_page,vmalloc或其它一些方式分配的頁都是由內存子系統處理的。即使2.0核心在你運行時預定額外的頁并不崩潰,這樣做可能在將來會產生問題。因而是不鼓勵的。不過你可以嘗試這種快且臟的技術看看它是任何工作的。

預定頁不是個好辦法的第二個原因是被預定的頁不被算做是整個系統內存的一部分,有的用戶在系統RAM發生變化時可能會很在意——用戶經常留意空閑內存數量,而總的內存量一般總和空閑內存一道顯示。

實現nopage方法

將實際RAM映射到用戶空間的一個較好的辦法是用vm_ops->nopage來一次處理一個頁面錯。作為scullp模塊一部分的一個示例實現在第七章“把握內存”中介紹過。

scullp是面向頁的字符設備。因為它是面向頁的,所以可以在它的內存中實現mmap。實現內存映射的代碼用了一些以前在“Linux的內存管理”中介紹過的概念。

在查看代碼之前,讓我們看一下影響scullp中mmap實現的設計選擇。

l???????????設備為模塊更新使用計數
在卸載模塊時為了避免發生問題,內存區域的open和close方法被實現去跟蹤模塊的使用。

l???????????設備為頁更新使用計數
這是為保證系統穩定是一個嚴格要求;不能更新這個計數將導致系統崩潰。每個頁有其自己的使用計數;當它降為零時,該頁被插入到空閑頁表。當一個活動映象被破壞掉時,核心會將相關RAM頁的使用計數減小。因此,驅動程序必須增加它所映射的每個頁的使用計數(注意,這個計數在nopage增加它時不能為零,因為該頁已經被fops->write分配了)。

l???????????只要設備是被映射的,scullp就不能釋放設備內存
這與其說是個要求,不如說是項政策,這與scull及類似設備的行為不同,因為它們在被因寫而打開時長度被截為0。拒絕釋放被映射的scullp設備允許一個設備一個進程重寫正被另一個進程映射的區段,這樣你就可以測試并看到進程與設備內存之間是如何交互的。為避免釋放一個被映射的設備,驅動程序必須保存一個活動映射的計數;設備結構中的vma域被用于這個目的。

l???????????只有在scullp的序號order參數為0時才進行內存影射
這個參數控制get_free_pages是如何調用的(見第七章中“get_free_pages和朋友們”一節)。這個選擇是由get_free_pages的內部機制決定的——scullp利用的分配機制。為了最大化分配性能,Linux核心為每個分配的序號(order)維護一個空閑頁的列表,在一個簇中只有第一頁的頁計數由get-free_pages增加和free_pages減少。如果分配序號大于0,那么對一個scullp設備來說mmap方法是關閉的,因為nopage只處理單項,而不是一簇頁。

?

最后一個選擇主要是為了保證代碼的簡單。通過處理頁的使用計數,也有可能為多頁分配正確地實現mmap,但那樣只能增加例子的復雜性,而不能帶來任何有趣的信息。

如果代碼想按照上面提到的規則來映射RAM,它需要實現open,close和nopage,還要訪問mem_map。

scullp_mmap的實現非常短,因為它依賴于nopage來完成所有有趣的工作:

(代碼285??#1)

開頭的條件語句是為了避免映射未對齊的偏移和分配序號不為0的設備。最后,vm_ops->open被調用以更新模塊的使用計數和設備的活動映射計數。

open和close就是為了跟蹤這些計數,被定義如下:

(代碼285??#2)

由于模塊生成了4個scullp設備并且也沒有內存區域可用的private_data指針,所以open和close取得與vma相關聯的scullp設備是通過從inode結構中抽取次設備號。次設備號被用來從設備結構的scullp_devices數組取偏移后得到指向正確結構的指針。

大部分工作是由nopage完成的。當進程發生頁面錯時,這個函數必須取得被引用頁的物理地址并返回給調用者。如果需要,這個方法可以計算address參數的頁對齊。在scullp的實現中,address被用來計算設備里的偏移;偏移又被用來在scullp的內存樹上查找正確的頁。

(代碼286??#1)

最后一行增加頁計數;這個計數在atomic_t中生命,因此可以由一個原子操作更新。事實上,在這種特定的情況下,原子更新并不是嚴格要求的,因為該頁已經在使用中,并且沒有與中斷處理程序或別的異步代碼的競爭條件。

現在scullp可以按預期的那樣工作了,正如你在工具mapper的示例輸出中所看到的:

(代碼286??#2)

(代碼287??#1)

?

重映射虛地址

盡管很少需要重映射虛地址,但看看驅動程序如何用mmap將虛地址映射到用戶空間是很有趣的。這里虛地址指的是由vmalloc返回的地址,也就是被映射到核心頁表的虛地址。本節的代碼取自scullv,這個模塊與scullp類似,只是它通過vmalloc分配存儲。

scullv的大部分實現與我們剛剛看到的scullp完全類似,除了不需要檢查分配序號。原因是vmalloc一次只分配一頁,因為單頁分配比多頁分配容易成功的多。因此,使用計數問題在通過vmalloc分配的空間中不適用。

scullv的主要工作是構造一個頁表,從而可以象連續地址空間一樣訪問分配的頁。而另一方面,nopage必須向調用者返回一個物理地址。因此,scullv的nopage實現必須掃描頁表以取得與頁相關聯的物理地址。

這個函數與我們在scullp中看到的一樣,除了結尾。這個代碼的節選只包括了nopage中與scullp不同的部分。

(代碼287??2#)

???????atomic_inc(&mem_map[MAP_NR(page)]).count;

???????return page;

???}

頁表由本章開始時介紹的那些函數來查詢。用于這個目的的頁目錄存在核心空間的內存結構init_m中。

宏VMALLOC_VMADDR(pageptr)返回正確的unsigned long值用于vmalloc地址的頁表查詢。注意,由于一個內存管理的問題,這個值的強制類型轉換在早于2.1的X86核心上不能工作。在X86的2.1.1版中內存管理做了改動,VMALLOC_VMADDR被定義為一個實體函數,與在其它平臺上一樣。

最后要提到的一點是init_mm是如何被訪問的,因為我前面提到過,它并未引出到模塊中。實際上,scullv要作一些額外的工作來取得init_mm的指針,解釋如下。

實際上,常規模塊并不需要init_mm,因為它們并不期望與內存管理交互;它們只是調用分配和釋放函數。為scullv的mmap實現很少見。本小節中介紹的代碼實際上并不用來驅動硬件;我介紹它只是用實際代碼來支持關于頁表的討論。

不過,既然談到這兒,我還是想給你看看scullv是如何獲得init_mm的地址的。這段代碼依賴于這樣的事實:0號進程(所謂的空閑任務)處于內核中,它的頁目錄描述了核心地址空間。為了觸到空閑任務的數據結構,scullv掃描進程鏈表直到找到0號進程。

(代碼288)

這個函數由fops->mmap調用,因為nopage只在mmap調用后運行。

基于上面的討論,你也許還想將由vremap(如果你用Linux2.1,就是ioremap)返回的地址映射到用戶空間。這很容易實現,因為你可以直接使用remap_page_range,而不用實現虛擬內存區域的方法。換句話說,remap_page_range已經可用以構造將I/O內存映射到用戶空間的頁表;并不需要象我們在scullv中那樣查看由vremap構造的核心頁表。

直接內存訪問

直接內存訪問,或DMA,是我們內存訪問方面討論的高級主題。DMA是一種硬件機制,它允許外圍組件將I/O數據直接從(或向)主存中傳送。

為了利用硬件的DMA能力,設備驅動程序需要能正確地設置DMA傳送并能與硬件同步。不幸的是,由于DMA的硬件實質,它非常以來于系統。每種體系結構都有它自己管理DMA傳送的技術,編程接口也互不相同。核心也不能提供一個一致的接口,因為驅動程序很難將底層硬件機制適當地抽象。本章中,我將描述DMA在ISA設備及PCI外圍上是如何工作的,因為它們是目前最常用的外圍接口體系結構。

不過,我不想討論ISA太多的細節。DMA的ISA實現過于復雜,在現代外圍中并不常用。目前ISA總線主要用在啞外圍接口上,而需要DMA能力的硬件生產商傾向于使用PCI總線。

DMA數據傳送的概況

在介紹編程細節以前,我們先大致看看DMA傳送是如何工作的。為簡化討論,只介紹輸入傳送。

數據傳送有兩種方式觸發:或者由軟件請求數據(通過一個函數如read),或者由硬件將數據異步地推向系統。

在第一中情況下,各步驟可如下概括:

l???????????當一個進程調用一個read,這個驅動程序方法分配一個DMA緩沖區,并告訴硬件去傳誦數據。進程進入睡眠。

l???????????硬件向DMA緩沖區寫數據,完成時發出一個中斷。

l???????????中斷處理程序獲得輸入數據,應答中斷,喚醒進程,它現在可以讀取數據。

有時DMA被異步地使用。例如,一些數據采集設備持續地推入數據,即使沒有人讀它。這種情況下,驅動程序要維護一個緩沖區,使得接下來的一個read調用可以將所有累積的數據返回到擁護空間。這種傳送的步驟稍有不同:

l???????????硬件發出一個中斷,表明新的數據到達了。

l???????????中斷處理程序分配一個緩沖區,告訴硬件將數據傳往何處。

l???????????外圍設備將數據寫入緩沖區;當寫完時,再次發出中斷。

l???????????處理程序派發新數據,喚醒所有相關進程,處理一些雜務。

?

上面這兩種情況下的處理步驟都強調:高效的DMA處理以來于中斷報告。盡管可以用一個輪詢驅動程序來實現DMA,這樣做并無意義,因為輪詢驅動程序會將DMA相對于簡單的處理器驅動I/O獲得的性能優勢都抵消了。

這里介紹的另一個相關問題是DMA緩沖區。為利用直接內存訪問,設備驅動程序必須能分配一個特殊緩沖區以適合DMA。注意大多數驅動程序在初始化時分配它們的緩沖區,一直使用到關機——因此,上面步驟中“分配”一詞指的是“獲得以前已分配的緩沖區”。

分配DMA緩沖區

DMA緩沖區的主要問題是當它大于一頁時,它必須占據物理內存的連續頁,因為設備使用ISA或PCI總線傳送數據,它都只攜帶物理地址。有趣的是注意到,這個限制對Sbus并不適用(見第15章“外圍總線概覽”中“Sbus”一節),它在外圍總線上適用虛地址。

盡管DMA緩沖區可以在系統引導或運行時分配,模塊只能在運行時分配其緩沖區。第七章介紹了這些技術:“Playing Dirty”講述在系統引導時分配;“kmalloc的真實故事”和“get_free_page和朋友們”講述運行時分配。如果你用kmalloc或get_free_page,你必須指定GFP_DMA優先級,與GFP_KERNEL或GFP_ATOMIC進行異或。

GFP_DMA要求內存空間必須適合于DMA傳送。核心保證能夠進行DMA的緩沖區具有以下兩個特點。第一,當get_free_page返回不止一頁時,其物理地址必須是連續的(不過,一般情況下的確如此,與GFP_DMA無關,因為本身就是以成簇的連續頁來組織空閑內存的)。第二,當GFP_DMA等設備時,核心保證只有低于MAX_DMA_ADDRESS的地址才被返回。宏MAX_DMA_ADDRESS在PC上被設為16MB,用以對付馬上就會講到的ISA限制。

在PCI情況下,沒有MAX_DMA_ADDRESS的限制,PCI設備驅動程序在分配它的緩沖區時應避免設置GFP_DMA。

自行分配

我們已經明白為何get_free_page(從而kmalloc)不能返回超過128KB(或更一般地,32頁)的連續內存空間。但這個要求很容易失敗,即使當分配的緩沖區小于128KB時,因為隨著時間的推移,系統內存會成為一些碎片*。

如果核心不能返回所需數量的內存,或如果你需要超過128KB的內存(例如對于一個PCI抓圖器來說,這是個很常見的需求),相對于返回-ENOMEM的一個辦法是在引導時分配內存或為你的緩沖區保留物理RAM的頂端。我在第七章“Playing Dirty”中講述了引導時的分配,但這個辦法對模塊不適用。保留RAM頂部可以通過向核心傳遞一個mem=參數來完成。例如,如果你有32M,參數mem=31M防止核心適用頂部一兆。你的模塊以后可以用下面的代碼來獲得對該內存的訪問:

???????dmabuf=vremap(0x1F00000 /*31MB*/, 0x100000 /* 1MB */ );

我自己分配DMA緩沖區的實現在allocator.c模塊(和一個相配的頭文件)中。你可以在src/misc-modules的示例文件中找到一個版本,最新版本總可以在我的FTP站點找到:ftp://ftp.systemy.it/pub/develop。你也可以找核心補丁bigphysarea,它和我的分配程序完成同樣的工作。

總線地址

當進行DMA時,設備驅動程序必須與連在接口總線上的硬件對話,這里使用物理地址,但程序代碼使用虛地址。

事實上,情況還要復雜一些。基于DMA的硬件使用總線地址,而不是物理地址。盡管在PC上,ISA和PCI地址與物理地址一樣,但并不是所有平臺都是這樣。有時接口總線是通過將I/O地址影射到不同物理地址的橋接電路被連接的。

Linux核心通過引出定義在<asm/io.h>中的下列函數來提供一個可移植的解決方案。

unsigned long virt_to_bus(volatile void * address);

???????void * bus_to_virt(unsigned long address);

其中virt_to_bus轉換在驅動程序需要向一個I/O設備(如一個擴展板或DMA控制器)發送地址信息時必須使用,而bus_to_virt在收到來自連于總線上的硬件地址信息時必須使用。

如果你查看依賴于前面講的allocator機制的代碼,你會發現這些函數的使用例子。這些代碼也依賴于vremap,因為上下文:

(代碼292)

盡管與DMA無關,我們值得再了解兩個核心引出的函數:

???????unsigned long virt_to_phys(volatile void * address);

???????void * phys_to_virt(unsigned long address);

這兩個函數在虛地址和物理地址之間進行轉換;它們在程序代碼需要和內存管理單元(MMU)或其它連在處理器地址線上的硬件對話時被用到。在PC平臺上,這兩對函數完成同樣的工作;但將它們分開是重要的,既為了代碼的清晰,也為了可移植性。

ISA設備DMA

ISA總線允許兩類DMA傳送:“native DMA”使用主板上的標準DMA控制器電路驅動ISA總線上的信號線;另一方面,“ISA bus-master DMA”則完全由外圍設備控制。后一種DMA類型很少用,所以不值得在這里討論,因為它類似于PCI設備的DMA,至少從驅動程序的角度看是這樣的。一個ISA bus-master的例子是1542 SCSI控制器,它的驅動程序是核心源碼中的drivers/scsi/aba1542.c。

關于native DMA,有三個實體參與了ISA總線上的DMA數據傳送:

8237 DMA控制器(DMAC)

控制器存有DMA傳送的信息,如方向、內存地址、傳送大小。它還有一個跟蹤傳送狀態的計數器。當控制器收到一個DMA請求信號,它獲得總線控制并驅動信號線以使設備可以讀寫數據。

外圍設備

???????設備在準備好傳送數據時,必須激活DMA請求信號。實際的傳送由DMAC控制;當控制器通知了設備,硬件設備就順序地從/往總線上讀/寫數據。

設備驅動程序

???????驅動程序要做的很少,它向DMA控制器提供方向、RAM地址、傳送大小。它還與外圍設備對話準備好傳送數據或在DMA結束時響應中斷。

?

原先在PC中使用的DMA控制器能管理4個通道,每個通道與一組DMA寄存器關聯,因此4個設備可以同時在控制器中存儲它們的DMA信息。新一些的PC有相當于兩套DMAC的設備*:第二個控制器(主)連向系統處理器,第一個(從)連在第二個控制器的0通道上+。

通道編號為0~7;4號通道對ISA外圍不可用,因為它是內部用來將從控制器級聯到主控制器上。這樣從控制器上可用的通道為0~3(8位通道),主控制器上為5~7(16位通道§)。每次DMA傳送的大小存儲在控制器中,是一個16位數,表示總線周期數。因此從控制器的最大傳送大小為64KB,主控制器為128KB。

由于DMA是系統范圍的資源,因此核心協助處理它。它用一個DMA注冊項提供DMA通道的請求和釋放機制,并用一組函數配置DMA控制器的通道信息。

注冊DMA的使用

你應該已經熟悉核心注冊項了——我們在I/O端口和中斷線那里見過它們。DMA通道的注冊項與其它類似。在包含了<asm/dma.h>后,下面的函數可以用來獲得和釋放DMA通道的所有權:

???????int request_dma(unsigned int channel, const char *name);

???????void free_dma(unsigned int channel);

參數channel是0到7之間的一個數,或更精確地說,是一個小于MAX_DMA_CHANNELS的正數。在PC上,MAX_DMA_CHANNELS被定義為8,以匹配硬件。參數name是確定設備的一個字符串。指定的名字出現在文件/proc/dma中,可由擁護程序讀出。

request_dma在成功時返回0,有錯誤時返回-EINVAL或-EBUSY。前者表明請求的通道出了范圍,后者表明有其它設備正占有這個設備。

我建議你對待DMA通道象對待I/O端口和中斷線一樣認真;在open時請求通道比從init_module中請求要好的多。推遲請求可以允許驅動程序間的一些共享;例如,你的聲卡和你的模擬I/O接口可以共享DMA通道,只要它們不在同時使用。

我同時也建議你在請求中斷線之后請求DMA通道,并在中斷之前釋放它。這是請求這兩個資源的常規順序;依照這個順序可以避免可能的死鎖。注意每個使用DMA的設備需要一個IRQ線,不然無法表明數據傳送的完成。

在典型的情況下,open的代碼看起來如下,這是個虛設的dad模塊(DMA獲取設備)。dad設備使用一個快速的中斷處理程序,不支持共享IRQ線。

(代碼295??#1)

與open匹配的close實現如下所示:

(代碼295??#2)

下面是小一個裝有聲卡的系統上/proc/dma文件的內容:

merlino% cat /proc/dma

??????????????1:??Sound Blaster8

??????????????4:??cascade

有趣的是注意到缺省的聲卡驅動程序在系統引導時獲得DMA通道,并永不釋放。顯示的cascade項只是占據一個位置,表明通道4對驅動程序不可用,如前所述。

與DMA控制器對話

注冊完成后,驅動程序的主要工作是為正確的操作來配置DMA控制器。這項工作并不簡單,好在核心引出了所有典型驅動程序所需的函數。

在read或write被調用,或者在預備異步傳送時,驅動程序都需要配置DMA控制器。第二種情況,任務在open時或在對一個ioctl命令響應時被執行,這依賴于驅動程序及其實現策略。這里給出的代碼一般是由read或write設備方法調用。

本小節對DMA控制器內部給出一個快速的概覽,這樣你就可以理解這里介紹的代碼。如果你想學更多,我鼓勵你閱讀<asm/dma.h>和一些介紹PC體系結構的硬件手冊。特別地,我并不關注8位和16位數據傳輸的區別。如果你在為ISA設備板子寫設備驅動程序,你應該在設備的硬件手冊里查找相關信息。

必須裝入控制器的信息由三項組成:RAM地址,必須傳送的原子項數目(以字節或字為單位),傳送的方向。為了這個目的,下面的函數由<asm/dma.h>引出:

void set_dma_mode(unsigned int channel, char mode);

???????說明通道是從設備讀(DMA_MODE_READ)還是向設備寫(DMA_MODE_WRITE)。還有第三個模式,DMA_MODE_CASCADE,用來釋放對總線的控制。級聯是第一個控制器連到第二個控制器上的方法,但它也可以由真正的ISA bus-master設備使用。我在這里不想討論bus-master。

void set_dma_addr(unsigned int channel, unsigned int addr);

???????分配DMA緩沖區的地址。這個函數將addr的低24位存入到控制器。參數addr必須是個總線地址(見“總線地址”)。

void set_dma_count(unsigned int channel, unsigned int count);

???????分配要傳送的字節數。參數count對16位通道仍以字節為單位;在這種情況下,這個數必須是個偶數。

?

除了這幾個函數,還有一些必須用來處理DMA設備的雜務工具:

void disable_dma(unsigned int channel);

???????一個DMA通道可以在控制器內被關閉。在DMAC被配置之前,通道應該被關閉以防止不正確的操作(控制器通過8位數據傳送編程,這樣前面的函數都不能被原子地執行。)

void enable_dma(unsigned int channel);

???????這個函數告訴控制器這個DMA通道含有效數據。

int get_dma_residue(unsigned int channel);

???????驅動程序有時需要知道一個DMA傳送是否結束了。這個函數返回尚待傳送的字節數。如果成功傳送完,則返回0;如果控制器還在工作,返回值則不可預知(但不是0)。這種不可預知性反映一個事實,即這個余數是個16位值,通過兩個8位輸入操作獲得。

void clear_dma_ff(unsigned int channel);

???????這個函數清除DMA flip-flop。flip-flop用來控制對16位寄存器的訪問。這些寄存器由兩個連續的8位操作來訪問,flip-flop用來選中低字節(當它被清除時)或高字節(當它被置時)。flip-flop在8位傳輸完后自動反轉;在訪問DMA積存器前必須清除一次flip-flop。

?

用這些函數,驅動程序可以實現如下所示的一個函數來預備一個DMA傳送:

(代碼297)

如下的函數用來檢查DMA的成功完成:

int dad_dma_isdone(int channel)

{

?????return(get_dma_residue(channel)==0);

}

剩下唯一要做的事就是配置設備板子。這個設備特定的任務通常包括讀寫幾個I/O端口。設備在很多地方不同。例如,有的設備期望程序員告訴硬件DMA緩沖區有多大,有時驅動程序必須從設備中讀出被硬寫入的數值。為了配置板子,硬件手冊是你唯一的朋友。

?

DMA和PCI設備

DMA的PCI實現比ISA上要簡單的多。

PCI支持多個bus-master,而DMA就簡化成bus-mastering。需要讀寫主存的設備只需要簡單地請求獲得總線的控制,接著就可以直接控制電信號。PCI的實現在硬件級更精巧,在設備驅動程序中更容易管理。

編寫PCI上的DMA傳送由下列步驟組成:

分配一個緩沖區

???????DMA緩沖區在內存中必須是物理連續的,但沒有16MB尋址能力的限制。一個get_free_page調用就足夠了。不必在優先級中指定GFP???_DMA。如果你真的需要它,你可以轉向(不鼓勵)在前面“分配DMA緩沖區”中介紹過的更具進攻性的技術。

和設備對話

???????擴展設備必須被告知DMA緩沖區。這通常意味著將緩沖區的地址和大小寫入幾個設備積存器。有時,DMA的大小由硬件設備決定,但這是設備相關的。傳往PCI設備的地址必須是總線地址。

正如你所看到的,不存在為PCI設備編寫的通用代碼。一個典型的實現如下所示,但每個設備都不相同,配置信息量變化也很大。

(代碼298)

快速參考

本章介紹了與內存處理有關的下列符號。下面的列表不包括第一節中介紹的符號,因為其列表太大,而且那些符號在設備驅動程序中也很少用到。

#include <linux/mm.h>

???????所有與內存管理有關的函數和結構在這個頭文件中定義。

int remap_page_range(unsigned long virt_add, unsigned long phys_add,

???????????????????unsigned long size, pgprot_t prot);

???????這個函數居于mmap的核心,它將開始于物理地址phys_add的size字節映射到virt_add。與虛擬空間相關聯的保護位在port中指定。

#include <asm/io.h>

unsigned long virt_to_bus(volatile void * address);

void * bus_to_virt(unsigned int address);

unsigned long virt_to_phys(volatile void * address);

void * phys_to_virt(unsigned long address);

???????這些函數在虛擬和物理地址之間轉換。必須使用總線地址來和外圍設備對話,物理地址用來和MMU電路對話。

/proc/dma

???????這個文件包括DMA控制器中已分配通道的文本形式快照。基于PCI的DMA并不顯示,因為各個板子獨立工作,不必在DMA控制器中分配一個通道。

#include <asm/dma.h>

???????這個頭文件定義了所有與DMA有關的函數和宏。要使用下面的符號就必須包含它。

int request_dma(unsigned int channel, const char * name);

void free_dma(unsigned int channel);

???????這些函數訪問DMA注冊項。在使用ISA DMA通道前必須注冊。

void set_dma_mode(unsigned int channel, char mode);

void set_dma_addr(unsigned int channel, unsigned int addr);

void set_dma_count(unsigned int channel, unsigned int count);

???????這些函數用來將DMA信息置入DMA控制器。addr是總線地址。

void disable_dma(unsigned int channel);

void enable_dma(unsigned int channel);

???????在配置時,DMA通道必須關閉。這些函數改變DMA通道的狀態。

int get_dma_residue(unsigned int channel);

???????如果驅動程序想知道DMA傳送進行的如何,它可以調用這個函數,返回尚需傳送的數據字節數。DMA成功完成后,函數返回0;如果還在傳送中,這個值是不可預知的。

void clear_dma_ff(unsigned int channel);

???????DMA flip-flop被控制器用來用8位操作來傳送16位的值。在傳送任何數值到控制器前必須將其清楚。

?



*?事實中,在sparc上的這些函數并不是inline的,而是實際extern的函數,它們沒有被引出到模塊化的代碼中。因此,你不能在運行在上的模塊中使用這些函數,不過實際上一般也用不著那樣做。

*?當某頁成為進程內存映象的一部分時,它的使用計數必須增加,因為在取消映射時,它會被減小。?這類鎖定不能在活動的RAM頁上實施,因為它可能阻止正常的系統操作(象swapping和allocation/deallocation)。

*?“碎片”這個詞一般用于磁盤,表示文件在磁介質上不是連續地存放。這個概念同樣適用于內存,即當每個虛擬地址空間都散布在整個物理RAM,很難為DMA的緩沖區請求分配連續的空閑頁。

*?這些電路現在是主板芯片組的一部分,但在幾年前,它們是兩個獨立的8237芯片。

+?最初的PC只有一個控制器;第二個是在286平臺上開始加上的。第二個控制器以主控制器的身份連接的原因是它能處理16位的傳送,而第一個控制器一次只傳送8位,它的存在只是為了后向兼容。

§?一個總線I/O周期傳送兩個字節。













本文轉自張昺華-sky博客園博客,原文鏈接:http://www.cnblogs.com/sky-heaven/p/5956703.html,如需轉載請自行聯系原作者

總結

以上是生活随笔為你收集整理的内存映射MMAP和DMA【转】的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。