Python爬虫的开发
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫的开发
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
HTTP請求的Python實現幫助大家了解Python中實現HTTP請求的各種方式
具備編寫HTTP網絡程序的能力
------
通用網絡爬蟲? 聚焦網絡爬蟲? 增量式網絡爬蟲 深層網絡爬蟲
-----
實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的
0-----
搜索引擎search? Engine
通用的網絡爬蟲 存在一定的 局限性
-------------
常見的BT網站? 通過爬取互聯網的DHT網絡中分享的BT種子信息
提供對外搜索服務
例如
http://www.cilisou.cn
------
云盤搜索網站? 爬取 用戶共享出來的云盤文件數據 對文件數據進行分類劃分?
http://www.pansou.com
-----------
種子URL? -----待抓取的URL---讀取URL----》已下載網頁數據----->抽取URL
?
------------
urllib? Request? httplib
------
我們首先了解一下 Urllib 庫,它是 Python 內置的 HTTP 請求庫,也就是說我們不需要額外安裝即可使用,它包含四個模塊:
- 第一個模塊 request,它是最基本的 HTTP 請求模塊,我們可以用它來模擬發送一請求,就像在瀏覽器里輸入網址然后敲擊回車一樣,只需要給庫方法傳入 URL 還有額外的參數,就可以模擬實現這個過程了。
- 第二個 error 模塊即異常處理模塊,如果出現請求錯誤,我們可以捕獲這些異常,然后進行重試或其他操作保證程序不會意外終止。
- 第三個 parse 模塊是一個工具模塊,提供了許多 URL 處理方法,比如拆分、解析、合并等等的方法。
- 第四個模塊是 robotparser,主要是用來識別網站的 robots.txt 文件,然后判斷哪些網站可以爬,哪些網站不可以爬的,其實用的比較少
- ---------------
?
轉載于:https://www.cnblogs.com/yizhixuepython/p/9264454.html
總結
以上是生活随笔為你收集整理的Python爬虫的开发的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ajax跨域请求Flask后台
- 下一篇: 打印数组所有排列 python