日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

手把手教你使用Python打造一款简易搜索引擎

發布時間:2024/1/8 python 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 手把手教你使用Python打造一款简易搜索引擎 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

/1 前言/

????相信大家在知識共享的這個年代一定在網上下載了很多的文件保存以供日后有時間學習吧,畢竟硬盤空間也比較有限,下面我們就來說說我們要做的這個項目,就是搜索盤搜里的資源然后進行下載。

/2 項目目標/

??? 實現搜索自己想要的文件,并且下載文件。

/3?項目準備/

????使用sublime text 3 開發。因為此次我們需要用到交互式來完成操作,所以需要在sublime text 3 下載一個sublimeREPL插件來進行輔助開發。

/4?項目實現/

1、打開盤搜,并隨意打開一個鏈接,如下圖所示:

2、然后可以看到這個畫面,如下圖所示。


3、此時這個網頁地址為:

http://www.pansou.com/?q=成化十四年

由此可以看出它是一個get請求。于是requests.get搞起來,這樣我們就實現了第一步,搜索。于是,可以這樣寫代碼:

import requests def down(content):content=input('請輸入要下載的文件名')rep=requests.get('http://www.pansou.com/?q='+str(content))rep.encoding='utf-8'

4、這樣就得到了上個頁面中的網頁源代碼,我們通過搜索相關關鍵字發現竟然搜不到:


5、那么這是怎么回事?原來這是因為ajax異步加載導致的部分關鍵代碼顯示不出來。這可就犯難了,換句話說這就觸及到我的知識點盲區了。

因為小編并未學過前端,只知道有ajax這回事,哪里知道這個問題怎么產生怎么解決了。不過不用怕,還好小編有一個大絕招,那就是找接口。我找呀找,終于被我找到了,哎,功夫不負苦心人。如圖所示:


6、發現這是個json格式的所以我們現在可以將他進行讀取,如圖:


7、不容易啊,json的坑很多,于是決定用字典。哈哈哈哈,果然適合自己的才是最香的。

找到了這些東西我們就可以把他們提取出來啦,這樣我們就提取出了第一頁的所有結果,要想提取第二頁的結果只需將p的結果改為2即可。

最終的結果,如圖:

8、接下來我們強化下程序,讓他具有交互功能,供用戶選擇。

9、但是我們了解到callback一般都是可變的函數,所以真正能用上的就只有兩個參數,q和p,于是:

這樣就完成了指定頁面的文件瀏覽。

下載的話也比較簡單,直接將鏈接復制到瀏覽器中即可,這樣就完成了一個最簡單的搜索引擎了。

/5 小結/

1、不建議抓取太多數據,容易對服務器造成負載,淺嘗輒止即可。
2、本文基于Python網絡爬蟲,利用爬蟲庫,打造了一款簡易的Python搜索引擎。
3、實現的時候,總會有各種各樣的問題,切勿眼高手低,勤動手,才可以理解的更加深刻。
4、如果需要本文源碼的話,請在公眾號后臺回復“引擎”關鍵字進行獲取,覺得不錯,記得給個star噢。

end

由菜鳥學Python原班人馬打造的公眾號【程序員GitHub】,專注于分享GitHub上有趣的資源包括,Python,Java,Go語言前端學習等優質的學習資源,爆料程序員圈的新鮮趣事,熱門干貨,職場感悟,感興趣的小伙伴可以來捧場!

程序員GitHub

長按2秒,輸入:【福利】

點這里,進菜鳥學PythonB站大本營

總結

以上是生活随笔為你收集整理的手把手教你使用Python打造一款简易搜索引擎的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。