日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

c语言再大文件内搜索,C语言中大型磁盘文件的二进制搜索

發(fā)布時間:2024/9/19 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 c语言再大文件内搜索,C语言中大型磁盘文件的二进制搜索 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這個問題經(jīng)常在StackOverflow上重復(fù)出現(xiàn),但我已經(jīng)閱讀了所有以前的相關(guān)答案,并對問題略有不同.

我有一個包含4.75億行相同大小的23Gb文件,每行包含一個40個字符的哈希碼,后跟一個標(biāo)識符(一個整數(shù)).

我有一個傳入的哈希碼流 – 總共有數(shù)十億個 – 對于每個傳入的哈希碼,我需要找到它并打印出相應(yīng)的標(biāo)識符.這項工作雖然很大,但只需要完成一次.

該文件太大,我無法讀入內(nèi)存,因此我一直嘗試以下列方式使用map:

codes = (char *) mmap(0,statbuf.st_size,PROT_READ,MAP_SHARED,codefile,0);

然后我只是根據(jù)代碼中的地址使用地址算法進(jìn)行二進(jìn)制搜索.

這似乎開始工作得很漂亮,并在幾秒內(nèi)產(chǎn)生幾百萬個標(biāo)識符,使用100%的cpu,但是經(jīng)過一些看似隨機(jī)的時間,它會減慢到爬行的速度.當(dāng)我使用ps查看進(jìn)程時,它已使用100%的cpu從狀態(tài)“R”更改為使用1%cpu的狀態(tài)“D”(磁盤綁定).

這是不可重復(fù)的 – 我可以在相同的數(shù)據(jù)上再次啟動該過程,并且可能在“慢速爬行”發(fā)生之前運行5秒或10秒.昨晚一次,在此之前我差不多花了一分鐘.

一切都是只讀的,我沒有嘗試任何寫入文件,我已經(jīng)停止了機(jī)器上的所有其他進(jìn)程(我控制).它是一臺現(xiàn)代的Red Hat Enterprise Linux 64位機(jī)器.

有誰知道為什么這個過程變得磁盤受限以及如何阻止它?

更新:

感謝大家的回答,以及您的想法;之前我沒有嘗試過所有各種改進(jìn),因為我想知道我是否以某種方式錯誤地使用了mmap.但答案的要點似乎是,除非我能將所有東西都擠進(jìn)記憶中,否則我將不可避免地遇到問題.所以我將哈希碼的大小壓縮到?jīng)]有創(chuàng)建任何重復(fù)項的前導(dǎo)前綴的大小 – 前15個字符就足夠了.然后我將生成的文件拉入內(nèi)存,并分別運行大約20億個傳入的哈希碼.

總結(jié)

以上是生活随笔為你收集整理的c语言再大文件内搜索,C语言中大型磁盘文件的二进制搜索的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。