當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

python_2开发简单爬虫

發布時間：2023/11/27 生活经验 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 python_2开发简单爬虫小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2017年12月03日 16:43:01 獨行俠的守望閱讀數：204 標簽： python爬蟲更多
個人分類： Python
編輯
版權聲明：本文為博主原創文章，轉載請注明文章鏈接。 https://blog.csdn.net/xiaoanzi123/article/details/78700863
學習地址：http://www.imooc.com/learn/563 慕課網
課程須知
本課程是Python語言開發的高級課程1、Python編程語法；2、HTML語言基礎知識；3、正則表達式基礎知識；
老師告訴你能學到什么？
1、爬蟲技術的含義和存在價值
2、爬蟲技術架構
3、組成爬蟲的關鍵模塊：URL管理器、HTML下載器和HTML解析器
4、實戰抓取百度百科1000個詞條頁面數據的抓取策略設定、實戰代碼編寫、爬蟲實例運行
5、一套極簡的可擴展爬蟲代碼，修改本代碼，你就能抓取任何互聯網網頁！
★第一章
課程介紹：
課程進行簡單的爬蟲講解----不需要登錄的靜態網頁抓取
1、爬蟲簡介
2、簡單爬蟲架構
3、URL管理器
4、網頁下載器urllib2
5、網頁解析器beautifulsoup
6、完整實例爬蟲百度百科
★第二章，
爬蟲是什么：從一個url出發，自動訪問他所關聯的所有url，提取數據。
爬蟲價值：爬取互聯網數據為我所用，開發新產品提供更好的服務

★第三章
3-1 python簡單爬蟲架構

3-2? python簡單爬蟲架構動態運行流程【時序圖】

★第四章? url管理器和實現方法

4-1? url管理

管理待抓取url結合? 和? 已經抓取的url集合? ，防止重復抓取和循環抓取

url管理器支持的功能?至少5個

4-2?url管理器的實現方式

目前有三種。

★第五章?網頁下載器和? urllib2? 模塊 ?

5-1?網頁下載器簡介? ? ? ? ? 將互聯網上url對應的網頁下載到本地的工具

python有哪些網頁下載器？

5-2? urllib2? 下載器網頁的三種方法

①最簡潔方法：把url傳遞給urllib2模塊的urlopen方法? ?urllib2.urlopen(url)

②

③

三種方法功能依次更大更強

5.3?urllib2實例代碼演示

ps:我安裝的是Python3.5.2? ，使用第一種urllib2.urlopen（）報錯，搜索發現官方3.0版本已經把urllib2,urlparse等五個模塊都并入了urllib中，也就是整合了，參考 ??http://blog.csdn.net/pythonniu/article/details/51855035? ，正確用法

import?urllib.request??
url="http://www.baidu.com"??
get=urllib.request.urlopen(url).read()??
print(get)??

★第六章? 網頁解析器和? beautifulsoup? 第三方模塊

6.1網頁解析器簡介

①正則表達式??

②Python自帶?html.parser

③第三方插件? beautifulsoup? 強大，能使用②?和?④

④第三方插件? ?lxml

①是模糊匹配，②③④是結構化解析。DOM樹，熟悉吧?乛?乛?

6.2beautifulsoup模塊簡介和安裝

該模塊屬于Python第三方模塊，用于從HTML或xml提取數據。

官網?http://www.crummmy.com/software/BeautifulSoup

在線安裝?beautifulsoup模塊，截圖如下【前提：已經有pip】

6.3beautifulsoup語法

流程：HTML網頁? ?→創建beautifulsoup對象（生成dom樹）??→搜索節點（find_all?方法?和?find方法，可以按照? 名稱、屬性、文字? 來搜索）???→?訪問節點名稱、屬性、文字

例子：

代碼如下：

6.4beautifulsoup實例測試

總結：課程教程是Python 2?版本，自己是3.x版本，總體還是從小白到?對python爬蟲整體概況有所了解一點吧。

轉載于:https://www.cnblogs.com/dxxdsw/p/10644765.html

總結

以上是生活随笔為你收集整理的python_2开发简单爬虫的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。