當前位置：首頁 > 编程语言 > python >内容正文

python

python urllib dns 缓存_新手用Python做一个网页爬虫

發布時間：2023/12/19 python 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 python urllib dns 缓存_新手用Python做一个网页爬虫小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

咱們好哈，最近博主在學習Python，學習時期也遇到一些問題，獲得了一些經歷，在此將自個的學習體系地整理下來，假如咱們有愛好學習爬蟲的話，能夠將這些文章作為參閱，也期待咱們總共同享學習經歷。

首要python爬蟲是啥？

網絡爬蟲（又被稱為頁面蜘蛛，網絡機器人，在FOAF社區中心，更常常的稱為頁面追逐者），是一種按照必定的規矩，主動的抓取萬維網信息的程序或許腳本。

根據我的經歷，要學習Python爬蟲，咱們要學習的共有以下幾點：

Python根底常識
Python中urllib和urllib2庫的用法
Python正則表達式
Python爬蟲結構Scrapy
Python爬蟲更高檔的功用

1. Python根底學習

首要，咱們要用Python寫爬蟲，肯定要了解Python的根底吧，萬丈高樓平地起，不能忘啦那地基，哈哈，那么我就同享一下自個從前看過的一些Python教程，小伙伴們能夠作為參閱。

學習地址http://www.pythonzxw.com

1) 慕課網Python教程

從前有一些根底的語法是在慕課網上看的，上面附有一些操練，學習完以后能夠作為操練，感受作用仍是蠻不錯的，不過略微惋惜的是內容根本上都是最根底的，入門開端的話，就這個吧

2) 廖雪峰Python教程

后來，我發現了廖老師的Python教程，講的那是十分通俗易懂哪，感受也是十分不錯，咱們假如想進一步了解Python就看一下這個吧。

3) 簡明Python教程

還有一個我看過的，簡明Python教程，感受講的也不錯

學習網址：簡明Python教程

2. Python urllib和urllib2 庫的用法

urllib和urllib2庫是學習Python爬蟲最根本的庫，利用這個庫咱們能夠得到頁面的內容，并對內容用正則表達式獲取剖析，得到咱們想要的成果。這個在學習進程中我會和咱們同享的。

3. Python 正則表達式

Python正則表達式是一種用來匹配字符串的強有力的兵器。它的設計思維是用一種描述性的言語來給字符串定義一個規矩，凡是契合規矩的字符串，咱們就以為它“匹配”了，否則，該字符串即是不合法的。這個在后面的博文會同享的。

4. 爬蟲結構Scrapy

假如你是一個Python高手，根本的爬蟲常識都現已把握了，那么就尋找一下Python結構吧，我選擇的結構是Scrapy結構。這個結構有啥強壯的功用呢？下面是它的官方介紹：

HTML, XML源數據選擇及獲取的內置支撐
供給了一系列在spider之間同享的可復用的過濾器(即 Item Loaders)，對智能處理爬取數據供給了內置支撐。
經過 feed導出供給了多格局(JSON、CSV、XML)，多存儲后端(FTP、S3、本地文件體系)的內置支撐
供給了media pipeline，能夠主動下載爬取到的數據中的圖像(或許別的資本)。
高拓展性。您能夠經過運用 signals ，設計好的API(中心件, extensions, pipelines)來定制完成您的功用。
內置的中心件及拓展為下列功用供給了支撐:

cookies and session 處理
HTTP 緊縮
HTTP 認證
HTTP 緩存
user-agent模仿
robots.txt
爬取深度限制
對于非英語語系中不規范或許過錯的編碼聲明, 供給了主動檢查以及健壯的編碼支撐。

支撐根據模板生成爬蟲。在加快爬蟲創立的同時，保持在大型項目中的代碼更為共同。具體內容請參閱 genspider 指令。
對于多爬蟲下性能評價、失利檢查，供給了可拓展的狀況搜集工具。
供給交互式shell終端 , 為您測驗XPath表達式，編寫和調試爬蟲供給了極大的便利
供給 System service, 簡化在出產環境的布置及運轉
內置 Web service, 使您能夠監督及操控您的機器
內置 Telnet終端，經過在Scrapy進程中鉤入Python終端，使您能夠檢查而且調試爬蟲
Logging 為您在爬取進程中捕捉過錯供給了便利
支撐 Sitemaps 爬取
具有緩存的DNS解析器

官方文檔：http://doc.scrapy.org/en/latest/

等咱們把握了根底的常識，再用這個 Scrapy 結構吧！

扯了這么多，如同沒多少有用的東西額，那就不扯啦！

下面開端咱們正式進入爬蟲之旅吧！

Python爬蟲入門（2）：爬蟲根底了解

1. 啥是爬蟲

爬蟲，即網絡爬蟲，咱們能夠了解為在網絡上爬行的一向蜘蛛，互聯網就比作一張大網，而爬蟲即是在這張網上爬來爬去的蜘蛛咯，假如它遇到資本，那么它就會抓取下來。想抓取啥？這個由你來操控它咯。

比方它在抓取一個頁面，在這個網中他發現了一條路途，本來即是指向頁面的超鏈接，那么它就能夠爬到另一張網上來獲取數據。這么，全部連在一起的大網對這之蜘蛛來說觸手可及，分分鐘爬下來不是事兒。

2. 閱讀頁面的進程

在用戶閱讀頁面的進程中，咱們可能會看到很多美觀的圖像，比方 http://image.baidu.com/ ，咱們會看到幾張的圖像以及baidu查找框，這個進程本來即是用戶輸入網址以后，經過DNS效勞器，找到效勞器主機，向效勞器發出一個懇求，效勞器經過解析以后，發送給用戶的閱讀器 HTML、JS、CSS 等文件，閱讀器解析出來，用戶便能夠看到五花八門的圖像了。

因而，用戶看到的頁面實質是由 HTML 代碼構成的，爬蟲爬來的即是這些內容，經過剖析和過濾這些 HTML 代碼，完成對圖像、文字等資本的獲取。

3. URL的含義

URL，即一致資本定位符，也即是咱們說的網址，一致資本定位符是對能夠從互聯網上得到的資本的方位和拜訪辦法的一種簡練的表明，是互聯網上規范資本的地址。互聯網上的每個文件都有一個僅有的URL，它包含的信息指出文件的方位以及閱讀器應當怎樣處理它。

URL的格局由三有些構成：

①第一有些是協議(或稱為效勞方法)。

②第二有些是存有該資本的主機IP地址(有時也包含端口號)。

③第三有些是主機資本的具體地址，如目錄和文件名等。

爬蟲爬取數據時有必要要有一個方針的URL才能夠獲取數據，因而，它是爬蟲獲取數據的根本根據，精確了解它的含義對爬蟲學習有很大協助。

4. 環境的裝備

學習Python，當然少不了環境的裝備，開始我用的是Notepad++，不過發現它的提示功用實在是太弱了，所以，在Windows下我用了 PyCharm，在Linux下我用了Eclipse for Python，別的還有幾款比較優秀的IDE，咱們能夠參閱這篇文章學習Python引薦的IDE 。好的開發工具是行進的推進器，期望咱們能夠找到合適自個的IDE

想要一起學習python的朋友可以訪問http://www.pythonzxw.com，群里有大量學習資料，還有大神解答問題

總結

以上是生活随笔為你收集整理的python urllib dns 缓存_新手用Python做一个网页爬虫的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Java5线程并发库之LOCK（锁）CO
下一篇： 2018年7月份，python上传自己的