日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NIO-零拷贝

發(fā)布時間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NIO-零拷贝 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、前言

磁盤可以說是計算機(jī)系統(tǒng)最慢的硬件之一,讀寫速度相差內(nèi)存 10 倍以上,所以針對優(yōu)化磁盤的技術(shù)非常的多,比如零拷貝、直接 I/O、異步 I/O 等等,這些優(yōu)化的目的就是為了提高系統(tǒng)的吞吐量,另外操作系統(tǒng)內(nèi)核中的磁盤高速緩存區(qū),可以有效的減少磁盤的訪問次數(shù)。這次,我們就以「文件傳輸」作為切入點,來分析 I/O 工作方式,以及如何優(yōu)化傳輸文件的性能。

二、為什么要有 DMA 技術(shù)?

在沒有 DMA 技術(shù)前,I/O 的過程是這樣的:

  • CPU 發(fā)出對應(yīng)的指令給磁盤控制器,然后返回;
  • 磁盤控制器收到指令后,于是就開始準(zhǔn)備數(shù)據(jù),會把數(shù)據(jù)放入到磁盤控制器的內(nèi)部緩沖區(qū)中,然后產(chǎn)生一個中斷;
  • CPU收到中斷信號后,停下手頭的工作,接著把磁盤控制器的緩沖區(qū)的數(shù)據(jù)一次一個字節(jié)地讀進(jìn)自己的寄存器,然后再把寄存器里的數(shù)據(jù)寫入到內(nèi)存,而在數(shù)據(jù)傳輸?shù)钠陂g,CPU 是無法執(zhí)行其他任務(wù)的。
  • 為了方便你理解,我畫了一副圖:

    可以看到,整個數(shù)據(jù)的傳輸過程,都要需要 CPU 親自參與搬運數(shù)據(jù)的過程,而且這個過程,CPU 是不能做其他事情的。簡單的搬運幾個字符數(shù)據(jù)那沒問題,但是如果我們用千兆網(wǎng)卡或者硬盤傳輸大量數(shù)據(jù)的時候,都用 CPU 來搬運的話,肯定忙不過來。計算機(jī)科學(xué)家們發(fā)現(xiàn)了事情的嚴(yán)重性后,于是就發(fā)明了 DMA 技術(shù),也就是直接內(nèi)存訪問(Direct Memory Access) 技術(shù)。

    什么是 DMA 技術(shù)?簡單理解就是:

    在進(jìn)行 I/O 設(shè)備和內(nèi)存的數(shù)據(jù)傳輸?shù)臅r候,數(shù)據(jù)搬運的工作全部交給 DMA 控制器,而 CPU 不再參與任何與數(shù)據(jù)搬運相關(guān)的事情,這樣 CPU 就可以去處理別的事務(wù)。

    那使用 DMA 控制器進(jìn)行數(shù)據(jù)傳輸?shù)倪^程究竟是什么樣的呢?下面我們來具體看看。

    具體過程:

    • 用戶進(jìn)程調(diào)用 read 方法,向操作系統(tǒng)發(fā)出 I/O 請求,請求讀取數(shù)據(jù)到自己的內(nèi)存緩沖區(qū)中,進(jìn)程進(jìn)入阻塞狀態(tài);
    • 操作系統(tǒng)收到請求后,進(jìn)一步將 I/O 請求發(fā)送 DMA,然后讓 CPU 執(zhí)行其他任務(wù);
    • DMA 進(jìn)一步將 I/O 請求發(fā)送給磁盤;
    • 磁盤收到DMA 的 I/O 請求,把數(shù)據(jù)從磁盤讀取到磁盤控制器的緩沖區(qū)中,當(dāng)磁盤控制器的緩沖區(qū)被讀滿后,向 DMA發(fā)起中斷信號,告知自己緩沖區(qū)已滿;
    • DMA 收到磁盤的信號,將磁盤控制器緩沖區(qū)中的數(shù)據(jù)拷貝到內(nèi)核緩沖區(qū)中,此時不占用 CPU,CPU可以執(zhí)行其他任務(wù);
    • 當(dāng) DMA 讀取了足夠多的數(shù)據(jù),就會發(fā)送中斷信號給 CPU;
    • CPU 收到 DMA的信號,知道數(shù)據(jù)已經(jīng)準(zhǔn)備好,于是將數(shù)據(jù)從內(nèi)核拷貝到用戶空間,系統(tǒng)調(diào)用返回;

    可以看到, 整個數(shù)據(jù)傳輸?shù)倪^程,CPU 不再參與數(shù)據(jù)搬運的工作,而是全程由 DMA 完成,但是 CPU 在這個過程中也是必不可少的,因為傳輸什么數(shù)據(jù),從哪里傳輸?shù)侥睦?#xff0c;都需要 CPU 來告訴 DMA 控制器。

    早期 DMA 只存在在主板上,如今由于 I/O 設(shè)備越來越多,數(shù)據(jù)傳輸?shù)男枨笠膊槐M相同,所以每個 I/O 設(shè)備里面都有自己的 DMA 控制器。

    • 傳統(tǒng)IO和DMA對比

    三、傳統(tǒng)的文件傳輸有多糟糕?

    如果服務(wù)端要提供文件傳輸?shù)墓δ?#xff0c;我們能想到的最簡單的方式是:將磁盤上的文件讀取出來,然后通過網(wǎng)絡(luò)協(xié)議發(fā)送給客戶端。傳統(tǒng) I/O 的工作方式是,數(shù)據(jù)讀取和寫入是從用戶空間到內(nèi)核空間來回復(fù)制,而內(nèi)核空間的數(shù)據(jù)是通過操作系統(tǒng)層面的 I/O 接口從磁盤讀取或?qū)懭搿?/p>

    代碼通常如下,一般會需要兩個系統(tǒng)調(diào)用:

    read(file, tmp_buf, len); write(socket, tmp_buf, len);

    代碼很簡單,雖然就兩行代碼,但是這里面發(fā)生了不少的事情。

    首先,期間共發(fā)生了 4 次用戶態(tài)與內(nèi)核態(tài)的上下文切換,因為發(fā)生了兩次系統(tǒng)調(diào)用,一次是 read() ,一次是 write(),每次系統(tǒng)調(diào)用都得先從用戶態(tài)切換到內(nèi)核態(tài),等內(nèi)核完成任務(wù)后,再從內(nèi)核態(tài)切換回用戶態(tài)。

    上下文切換到成本并不小,一次切換需要耗時幾十納秒到幾微秒,雖然時間看上去很短,但是在高并發(fā)的場景下,這類時間容易被累積和放大,從而影響系統(tǒng)的性能。其次,還發(fā)生了 4 次數(shù)據(jù)拷貝,其中兩次是 DMA 的拷貝,另外兩次則是通過 CPU 拷貝的,下面說一下這個過程:

  • 第一次拷貝,把磁盤上的數(shù)據(jù)拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū)里,這個拷貝的過程是通過 DMA 搬運的。
  • 第二次拷貝,把內(nèi)核緩沖區(qū)的數(shù)據(jù)拷貝到用戶的緩沖區(qū)里,于是我們應(yīng)用程序就可以使用這部分?jǐn)?shù)據(jù)了,這個拷貝到過程是由 CPU 完成的。
  • 第三次拷貝,把剛才拷貝到用戶的緩沖區(qū)里的數(shù)據(jù),再拷貝到內(nèi)核的 socket 的緩沖區(qū)里,這個過程依然還是由 CPU 搬運的。
  • 第四次拷貝,把內(nèi)核的 socket 緩沖區(qū)里的數(shù)據(jù),拷貝到網(wǎng)卡的緩沖區(qū)里,這個過程又是由 DMA 搬運的。
  • 我們回過頭看這個文件傳輸?shù)倪^程,我們只是搬運一份數(shù)據(jù),結(jié)果卻搬運了 4 次,過多的數(shù)據(jù)拷貝無疑會消耗 CPU 資源,大大降低了系統(tǒng)性能。

    這種簡單又傳統(tǒng)的文件傳輸方式,存在冗余的上文切換和數(shù)據(jù)拷貝,在高并發(fā)系統(tǒng)里是非常糟糕的,多了很多不必要的開銷,會嚴(yán)重影響系統(tǒng)性能。

    所以,要想提高文件傳輸?shù)男阅?#xff0c;就需要減少「用戶態(tài)與內(nèi)核態(tài)的上下文切換」和「內(nèi)存拷貝」的次數(shù)。

    四、如何優(yōu)化文件傳輸?shù)男阅?#xff1f;

    • 先來看看,如何減少「用戶態(tài)與內(nèi)核態(tài)的上下文切換」的次數(shù)呢?

    讀取磁盤數(shù)據(jù)的時候,之所以要發(fā)生上下文切換,這是因為用戶空間沒有權(quán)限操作磁盤或網(wǎng)卡,內(nèi)核的權(quán)限最高,這些操作設(shè)備的過程都需要交由操作系統(tǒng)內(nèi)核來完成,所以一般要通過內(nèi)核去完成某些任務(wù)的時候,就需要使用操作系統(tǒng)提供的系統(tǒng)調(diào)用函數(shù)。而一次系統(tǒng)調(diào)用必然會發(fā)生 2 次上下文切換:首先從用戶態(tài)切換到內(nèi)核態(tài),當(dāng)內(nèi)核執(zhí)行完任務(wù)后,再切換回用戶態(tài)交由進(jìn)程代碼執(zhí)行。

    所以,要想減少上下文切換到次數(shù),就要減少系統(tǒng)調(diào)用的次數(shù)。

    • 再來看看,如何減少「數(shù)據(jù)拷貝」的次數(shù)?

    在前面我們知道了,傳統(tǒng)的文件傳輸方式會歷經(jīng) 4 次數(shù)據(jù)拷貝,而且這里面,「從內(nèi)核的讀緩沖區(qū)拷貝到用戶的緩沖區(qū)里,再從用戶的緩沖區(qū)里拷貝到 socket 的緩沖區(qū)里」,這個過程是沒有必要的。因為文件傳輸?shù)膽?yīng)用場景中,在用戶空間我們并不會對數(shù)據(jù)「再加工」,所以數(shù)據(jù)實際上可以不用搬運到用戶空間,因此用戶的緩沖區(qū)是沒有必要存在的。

    五、如何實現(xiàn)零拷貝?

    零拷貝技術(shù)實現(xiàn)的方式通常有 2 種:

    1. mmap + write 2. sendfile

    下面就談一談,它們是如何減少「上下文切換」和「數(shù)據(jù)拷貝」的次數(shù)。

    • mmap + write

    在前面我們知道,read() 系統(tǒng)調(diào)用的過程中會把內(nèi)核緩沖區(qū)的數(shù)據(jù)拷貝到用戶的緩沖區(qū)里,于是為了減少這一步開銷,我們可以用 mmap() 替換 read() 系統(tǒng)調(diào)用函數(shù)。

    buf = mmap(file, len); write(sockfd, buf, len);

    mmap() 系統(tǒng)調(diào)用函數(shù)會直接把內(nèi)核緩沖區(qū)里的數(shù)據(jù)「映射」到用戶空間,這樣,操作系統(tǒng)內(nèi)核與用戶空間就不需要再進(jìn)行任何的數(shù)據(jù)拷貝操作。

    mmap示意圖:

    具體過程如下:

  • 應(yīng)用進(jìn)程調(diào)用了 mmap() 后,DMA 會把磁盤的數(shù)據(jù)拷貝到內(nèi)核的緩沖區(qū)里。接著,應(yīng)用進(jìn)程跟操作系統(tǒng)內(nèi)核「共享」這個緩沖區(qū);
  • 應(yīng)用進(jìn)程再調(diào)用 write(),操作系統(tǒng)直接將內(nèi)核緩沖區(qū)的數(shù)據(jù)拷貝到 socket 緩沖區(qū)中,這一切都發(fā)生在內(nèi)核態(tài),由 CPU 來搬運數(shù)據(jù);
  • 最后,把內(nèi)核的 socket 緩沖區(qū)里的數(shù)據(jù),拷貝到網(wǎng)卡的緩沖區(qū)里,這個過程是由 DMA 搬運的。
  • 我們可以得知,通過使用 mmap() 來代替 read(), 可以減少一次數(shù)據(jù)拷貝的過程。但這還不是最理想的零拷貝,因為仍然需要通過 CPU 把內(nèi)核緩沖區(qū)的數(shù)據(jù)拷貝到 socket 緩沖區(qū)里,而且仍然需要 4 次上下文切換,因為系統(tǒng)調(diào)用還是 2 次。

    • sendfile

    在 Linux 內(nèi)核版本 2.1 中,提供了一個專門發(fā)送文件的系統(tǒng)調(diào)用函數(shù) sendfile(),函數(shù)形式如下:

    #include <sys/socket.h> ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

    它的前兩個參數(shù)分別是目的端和源端的文件描述符,后面兩個參數(shù)是源端的偏移量和復(fù)制數(shù)據(jù)的長度,返回值是實際復(fù)制數(shù)據(jù)的長度。首先,它可以替代前面的 read() 和 write() 這兩個系統(tǒng)調(diào)用,這樣就可以減少一次系統(tǒng)調(diào)用,也就減少了 2 次上下文切換的開銷。其次,該系統(tǒng)調(diào)用,可以直接把內(nèi)核緩沖區(qū)里的數(shù)據(jù)拷貝到 socket 緩沖區(qū)里,不再拷貝到用戶態(tài),這樣就只有 2 次上下文切換,和 3 次數(shù)據(jù)拷貝。如下圖:

    但是這還不是真正的零拷貝技術(shù),如果網(wǎng)卡支持 SG-DMA(The Scatter-Gather Direct Memory Access)技術(shù)(和普通的 DMA 有所不同),我們可以進(jìn)一步減少通過 CPU 把內(nèi)核緩沖區(qū)里的數(shù)據(jù)拷貝到 socket 緩沖區(qū)的過程。

    你可以在你的 Linux 系統(tǒng)通過下面這個命令,查看網(wǎng)卡是否支持 scatter-gather 特性:

    $ ethtool -k eth0 | grep scatter-gather scatter-gather: on

    于是,從 Linux 內(nèi)核 2.4 版本開始起,對于支持網(wǎng)卡支持 SG-DMA 技術(shù)的情況下, sendfile() 系統(tǒng)調(diào)用的過程發(fā)生了點變化,具體過程如下:

    • 第一步,通過 DMA 將磁盤上的數(shù)據(jù)拷貝到內(nèi)核緩沖區(qū)里;
    • 第二步,緩沖區(qū)描述符和數(shù)據(jù)長度傳到 socket 緩沖區(qū),這樣網(wǎng)卡的 SG-DMA控制器就可以直接將內(nèi)核緩存中的數(shù)據(jù)拷貝到網(wǎng)卡的緩沖區(qū)里,此過程不需要將數(shù)據(jù)從操作系統(tǒng)內(nèi)核緩沖區(qū)拷貝到 socket 緩沖區(qū)中,這樣就減少了一次數(shù)據(jù)拷貝;

    所以,這個過程之中,只進(jìn)行了 2 次數(shù)據(jù)拷貝,如下圖:

    • sendfile()示意圖

    這就是所謂的零拷貝(Zero-copy)技術(shù),因為我們沒有在內(nèi)存層面去拷貝數(shù)據(jù),也就是說全程沒有通過 CPU 來搬運數(shù)據(jù),所有的數(shù)據(jù)都是通過 DMA 來進(jìn)行傳輸?shù)摹A憧截惣夹g(shù)的文件傳輸方式相比傳統(tǒng)文件傳輸?shù)姆绞?#xff0c;減少了 2 次上下文切換和數(shù)據(jù)拷貝次數(shù),只需要 2 次上下文切換和數(shù)據(jù)拷貝次數(shù),就可以完成文件的傳輸,而且 2 次的數(shù)據(jù)拷貝過程,都不需要通過 CPU,2 次都是由 DMA 來搬運。

    所以,總體來看,零拷貝技術(shù)可以把文件傳輸?shù)男阅芴岣咧辽僖槐兑陨稀?/p>

    六、使用零拷貝技術(shù)的項目

    事實上,Kafka 這個開源項目,就利用了「零拷貝」技術(shù),從而大幅提升了 I/O 的吞吐率,這也是 Kafka 在處理海量數(shù)據(jù)為什么這么快的原因之一。

    如果你追溯 Kafka 文件傳輸?shù)拇a,你會發(fā)現(xiàn),最終它調(diào)用了 Java NIO 庫里的 transferTo 方法:

    @Overridepublic long transferFrom(FileChannel fileChannel, long position, long count) throws IOException { return fileChannel.transferTo(position, count, socketChannel); }

    如果 Linux 系統(tǒng)支持 sendfile() 系統(tǒng)調(diào)用,那么 transferTo() 實際上最后就會使用到 sendfile() 系統(tǒng)調(diào)用函數(shù)。曾經(jīng)有大佬專門寫過程序測試過,在同樣的硬件條件下,傳統(tǒng)文件傳輸和零拷拷貝文件傳輸?shù)男阅懿町?#xff0c;你可以看到下面這張測試數(shù)據(jù)圖,使用了零拷貝能夠縮短 65% 的時間,大幅度提升了機(jī)器傳輸數(shù)據(jù)的吞吐量。

    另外,Nginx 也支持零拷貝技術(shù),一般默認(rèn)是開啟零拷貝技術(shù),這樣有利于提高文件傳輸?shù)男?#xff0c;是否開啟零拷貝技術(shù)的配置如下:

    http { ...sendfile on ... }

    sendfile 配置的具體意思:

    • 設(shè)置為 on 表示,使用零拷貝技術(shù)來傳輸文件:sendfile ,這樣只需要 2 次上下文切換,和 2 次數(shù)據(jù)拷貝。
    • 設(shè)置為 off 表示,使用傳統(tǒng)的文件傳輸技術(shù):read + write,這時就需要 4 次上下文切換,和 4 次數(shù)據(jù)拷貝。

    當(dāng)然,要使用 sendfile,Linux 內(nèi)核版本必須要 2.1 以上的版本。

    七、PageCache 有什么作用?

    回顧前面說道文件傳輸過程,其中第一步都是先需要先把磁盤文件數(shù)據(jù)拷貝「內(nèi)核緩沖區(qū)」里,這個「內(nèi)核緩沖區(qū)」實際上是磁盤高速緩存(PageCache)。由于零拷貝使用了 PageCache 技術(shù),可以使得零拷貝進(jìn)一步提升了性能,我們接下來看看 PageCache 是如何做到這一點的。讀寫磁盤相比讀寫內(nèi)存的速度慢太多了,所以我們應(yīng)該想辦法把「讀寫磁盤」替換成「讀寫內(nèi)存」。于是,我們會通過 DMA 把磁盤里的數(shù)據(jù)搬運到內(nèi)存里,這樣就可以用讀內(nèi)存替換讀磁盤。但是,內(nèi)存空間遠(yuǎn)比磁盤要小,內(nèi)存注定只能拷貝磁盤里的一小部分?jǐn)?shù)據(jù)。

    那問題來了,選擇哪些磁盤數(shù)據(jù)拷貝到內(nèi)存呢?

    我們都知道程序運行的時候,具有「局部性」,所以通常,剛被訪問的數(shù)據(jù)在短時間內(nèi)再次被訪問的概率很高,于是我們可以用 PageCache 來緩存最近被訪問的數(shù)據(jù),當(dāng)空間不足時淘汰最久未被訪問的緩存。所以:

    讀磁盤數(shù)據(jù)的時候,優(yōu)先在 PageCache 找,如果數(shù)據(jù)存在則可以直接返回;如果沒有,則從磁盤中讀取,然后緩存 PageCache 中。

    還有一點,讀取磁盤數(shù)據(jù)的時候,需要找到數(shù)據(jù)所在的位置,但是對于機(jī)械磁盤來說,就是通過磁頭旋轉(zhuǎn)到數(shù)據(jù)所在的扇區(qū),再開始「順序」讀取數(shù)據(jù),但是旋轉(zhuǎn)磁頭這個物理動作是非常耗時的,為了降低它的影響,PageCache 使用了「預(yù)讀功能」。比如,假設(shè) read 方法每次只會讀 32 KB 的字節(jié),雖然 read 剛開始只會讀 0 ~ 32 KB 的字節(jié),但內(nèi)核會把其后面的 32~64 KB 也讀取到 PageCache,這樣后面讀取 32~64 KB 的成本就很低,如果在 32~64 KB 淘汰出 PageCache 前,進(jìn)程讀取到它了,收益就非常大。

    所以,PageCache 的優(yōu)點主要是兩個:

    • 緩存最近被訪問的數(shù)據(jù);
    • 預(yù)讀功能;

    這兩個做法,將大大提高讀寫磁盤的性能。

    但是,在傳輸大文件(GB 級別的文件)的時候,PageCache 會不起作用,那就白白浪費 DMA多做的一次數(shù)據(jù)拷貝,造成性能的降低,即使使用了 PageCache 的零拷貝也會損失性能

    這是因為如果你有很多 GB 級別文件需要傳輸,每當(dāng)用戶訪問這些大文件的時候,內(nèi)核就會把它們載入 PageCache 中,于是 PageCache 空間很快被這些大文件占滿。

    另外,由于文件太大,可能某些部分的文件數(shù)據(jù)被再次訪問的概率比較低,這樣就會帶來 2 個問題:

    • PageCache 由于長時間被大文件占據(jù),其他「熱點」的小文件可能就無法充分使用到 PageCache,于是這樣磁盤讀寫的性能就會下降了;
    • PageCache 中的大文件數(shù)據(jù),由于沒有享受到緩存帶來的好處,但卻耗費 DMA 多拷貝到 PageCache 一次;

    所以,針對大文件的傳輸,不應(yīng)該使用 PageCache,也就是說不應(yīng)該使用零拷貝技術(shù),因為可能由于 PageCache 被大文件占據(jù),而導(dǎo)致「熱點」小文件無法利用到 PageCache,這樣在高并發(fā)的環(huán)境下,會帶來嚴(yán)重的性能問題。

    八、大文件傳輸用什么方式實現(xiàn)?

    那針對大文件的傳輸,我們應(yīng)該使用什么方式呢?我們先來看看最初的例子,當(dāng)調(diào)用 read 方法讀取文件時,進(jìn)程實際上會阻塞在 read 方法調(diào)用,因為要等待磁盤數(shù)據(jù)的返回,如下圖:

    具體過程:

  • 當(dāng)調(diào)用 read 方法時,會阻塞著,此時內(nèi)核會向磁盤發(fā)起 I/O 請求,磁盤收到請求后,便會尋址,當(dāng)磁盤數(shù)據(jù)準(zhǔn)備好后,就會向內(nèi)核發(fā)起 I/O 中斷,告知內(nèi)核磁盤數(shù)據(jù)已經(jīng)準(zhǔn)備好;
  • 內(nèi)核收到 I/O 中斷后,就將數(shù)據(jù)從磁盤控制器緩沖區(qū)拷貝到 PageCache 里;
  • 最后,內(nèi)核再把PageCache 中的數(shù)據(jù)拷貝到用戶緩沖區(qū),于是 read 調(diào)用就正常返回了。
  • 對于阻塞的問題,可以用異步 I/O 來解決,它工作方式如下圖:

    它把讀操作分為兩部分:

    • 前半部分,內(nèi)核向磁盤發(fā)起讀請求,但是可以不等待數(shù)據(jù)就位就可以返回,于是進(jìn)程此時可以處理其他任務(wù);
    • 后半部分,當(dāng)內(nèi)核將磁盤中的數(shù)據(jù)拷貝到進(jìn)程緩沖區(qū)后,進(jìn)程將接收到內(nèi)核的通知,再去處理數(shù)據(jù);

    而且,我們可以發(fā)現(xiàn),異步 I/O 并沒有涉及到 PageCache,所以使用異步 I/O 就意味著要繞開 PageCache。

    繞開 PageCache 的 I/O 叫直接 I/O,使用 PageCache 的 I/O 則叫緩存 I/O

    通常,對于磁盤,異步 I/O 只支持直接 I/O。

    前面也提到,大文件的傳輸不應(yīng)該使用 PageCache,因為可能由于 PageCache 被大文件占據(jù),而導(dǎo)致「熱點」小文件無法利用到 PageCache。于是,在高并發(fā)的場景下,針對大文件的傳輸?shù)姆绞?#xff0c;應(yīng)該使用「異步 I/O + 直接 I/O」來替代零拷貝技術(shù)。

    直接 I/O 應(yīng)用場景常見的兩種:

    應(yīng)用程序已經(jīng)實現(xiàn)了磁盤數(shù)據(jù)的緩存,那么可以不需要 PageCache 再次緩存,減少額外的性能損耗。在 MySQL
    數(shù)據(jù)庫中,可以通過參數(shù)設(shè)置開啟直接 I/O,默認(rèn)是不開啟; 傳輸大文件的時候,由于大文件難以命中 PageCache 緩存,而且會占滿
    PageCache 導(dǎo)致「熱點」文件無法充分利用緩存,從而增大了性能開銷,因此,這時應(yīng)該使用直接 I/O。

    另外,由于直接 I/O 繞過了 PageCache,就無法享受內(nèi)核的這兩點的優(yōu)化:

    • 內(nèi)核的 I/O 調(diào)度算法會緩存盡可能多的 I/O 請求在 PageCache 中,最后「合并」成一個更大的 I/O請求再發(fā)給磁盤,這樣做是為了減少磁盤的尋址操作;
    • 內(nèi)核也會「預(yù)讀」后續(xù)的 I/O 請求放在 PageCache 中,一樣是為了減少對磁盤的操作;

    于是,傳輸大文件的時候,使用「異步 I/O + 直接 I/O」了,就可以無阻塞地讀取文件了。

    所以,傳輸文件的時候,我們要根據(jù)文件的大小來使用不同的方式:

    • 傳輸大文件的時候,使用「異步 I/O + 直接 I/O」;
    • 傳輸小文件的時候,則使用「零拷貝技術(shù)」;

    在 nginx 中,我們可以用如下配置,來根據(jù)文件的大小來使用不同的方式:

    //當(dāng)文件大小大于 directio 值后,使用「異步 I/O + 直接 I/O」,否則使用「零拷貝技術(shù)」。 location /video/ { sendfile on; aio on; directio 1024m; }

    九、總結(jié)

  • 早期 I/O 操作,內(nèi)存與磁盤的數(shù)據(jù)傳輸?shù)墓ぷ鞫际怯?CPU 完成的,而此時 CPU 不能執(zhí)行其他任務(wù),會特別浪費 CPU 資源。于是,為了解決這一問題,DMA 技術(shù)就出現(xiàn)了,每個 I/O 設(shè)備都有自己的 DMA 控制器,通過這個 DMA 控制器,CPU 只需要告訴 DMA 控制器,我們要傳輸什么數(shù)據(jù),從哪里來,到哪里去,就可以放心離開了。后續(xù)的實際數(shù)據(jù)傳輸工作,都會由 DMA 控制器來完成,CPU 不需要參與數(shù)據(jù)傳輸?shù)墓ぷ鳌?/p>

  • 傳統(tǒng) IO 的工作方式,從硬盤讀取數(shù)據(jù),然后再通過網(wǎng)卡向外發(fā)送,我們需要進(jìn)行 4 上下文切換,和 4 次數(shù)據(jù)拷貝,其中 2 次數(shù)據(jù)拷貝發(fā)生在內(nèi)存里的緩沖區(qū)和對應(yīng)的硬件設(shè)備之間,這個是由 DMA 完成,另外 2 次則發(fā)生在內(nèi)核態(tài)和用戶態(tài)之間,這個數(shù)據(jù)搬移工作是由 CPU 完成的。

  • 為了提高文件傳輸?shù)男阅?#xff0c;于是就出現(xiàn)了零拷貝技術(shù),它通過一次系統(tǒng)調(diào)用(sendfile 方法)合并了磁盤讀取與網(wǎng)絡(luò)發(fā)送兩個操作,降低了上下文切換次數(shù)。另外,拷貝數(shù)據(jù)都是發(fā)生在內(nèi)核中的,天然就降低了數(shù)據(jù)拷貝的次數(shù)。

  • Kafka 和 Nginx 都有實現(xiàn)零拷貝技術(shù),這將大大提高文件傳輸?shù)男阅堋?/p>

  • 零拷貝技術(shù)是基于 PageCache 的,PageCache 會緩存最近訪問的數(shù)據(jù),提升了訪問緩存數(shù)據(jù)的性能,同時,為了解決機(jī)械硬盤尋址慢的問題,它還協(xié)助 I/O 調(diào)度算法實現(xiàn)了 IO 合并與預(yù)讀,這也是順序讀比隨機(jī)讀性能好的原因。這些優(yōu)勢,進(jìn)一步提升了零拷貝的性能。需要注意的是,零拷貝技術(shù)是不允許進(jìn)程對文件內(nèi)容作進(jìn)一步的加工的,比如壓縮數(shù)據(jù)再發(fā)送。

  • 另外,當(dāng)傳輸大文件時,不能使用零拷貝,因為可能由于 PageCache 被大文件占據(jù),而導(dǎo)致「熱點」小文件無法利用到 PageCache,并且大文件的緩存命中率不高,這時就需要使用「異步 IO + 直接 IO 」的方式。

  • 在 Nginx 里,可以通過配置,設(shè)定一個文件大小閾值,針對大文件使用異步 IO 和直接 IO,而對小文件使用零拷貝。

  • 文章轉(zhuǎn)自

    總結(jié)

    以上是生活随笔為你收集整理的NIO-零拷贝的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 2019天天操 | 夜夜摸夜夜爽 | 熟妇毛片| 日韩99| 国产伦精品一区二区三区视频免费 | 三级全黄做爰龚玥菲在线 | 亚洲综合在线成人 | 私密视频在线观看 | 久久影院午夜理论片无码 | 国产九九久久 | 色天天天 | 秋霞成人网 | 中文字幕有码视频 | 国产黄色成人 | 中文字幕视频在线 | 国产精品久久久999 www日本高清视频 | 男女做爰真人视频直播 | 国产精品人 | 最近中文字幕免费mv视频7 | 国产污片在线观看 | 日本泡妞xxxx免费视频软件 | 999xxxxx| 成人免费视频播放 | 国产女人18毛片 | 久久久久久久久久艹 | 久久久久久久美女 | 男女黄色录像 | 美女久久久 | 免费看欧美黑人毛片 | 欧美一区二区高清 | 亚洲av鲁丝一区二区三区 | 欧美第一页草草影院 | 欧美性猛交xxxx乱大交蜜桃 | 亚洲一区二区国产 | 啪啪av | 国产欧美日韩精品一区二区三区 | 国产精品自拍在线 | 欧美人与性囗牲恔配 | 91国自产精品中文字幕亚洲 | av免费观看入口 | 国产日皮视频 | jzzijzzij日本成熟少妇 | 草草影院欧美 | 亚洲五码av | 色婷婷激情av | 日韩精品视频一区二区三区 | 免费看黄色三级 | 精品人伦一区二区三区蜜桃免费 | 97se亚洲| 91av视频| 九九99视频 | 亚洲色偷偷综合亚洲av伊人 | 国产精品久久久久久久久免费看 | 日本理论片在线 | 男女男精品视频站 | 成人精品在线观看视频 | 国产三区在线播放 | 热热色原网址 | 国产成人精品av | 人妻少妇久久中文字幕 | 精品久久久久久久久久久aⅴ | 在线看欧美| 天天影视综合 | 日韩一级黄色片 | 精品一二区| 天天有av| 黄色91在线观看 | 欧美日韩不卡视频 | 色综合一区二区 | 天天草天天爽 | av免费观看不卡 | 欧美精品一区二区三区久久久 | 91香蕉视频在线观看免费 | 欧美视频在线一区二区三区 | 岛国av电影在线观看 | 国产高潮久久 | 国产污网站 | 国产欧美日韩三区 | 久久久久久91香蕉国产 | 天天摸天天干 | 国产精品伦一区二区三区 | 吃奶在线观看 | 视频网站在线观看18 | 夜色视频网 | 操操干干 | 男生坤坤放进女生坤坤里 | 欧美一区二区在线看 | 国产精品免费一区二区三区都可以 | 中国久久久久 | 欧美片网站yy | 国产私人影院 | 成人av自拍| 91漂亮少妇露脸在线播放 | 欧美日韩免费高清 | 精品久久ai | 北条麻妃久久 | 99精品偷自拍 | 18禁免费无码无遮挡不卡网站 | 日本少妇毛茸茸 |