python_2开发简单爬虫
?
?
?
?
2017年12月03日 16:43:01 獨行俠的守望 閱讀數:204 標簽: python爬蟲 更多
個人分類: Python
編輯
版權聲明:本文為博主原創文章,轉載請注明文章鏈接。 https://blog.csdn.net/xiaoanzi123/article/details/78700863
學習地址:http://www.imooc.com/learn/563 慕課網
課程須知
本課程是Python語言開發的高級課程1、Python編程語法;2、HTML語言基礎知識;3、正則表達式基礎知識;
老師告訴你能學到什么?
1、爬蟲技術的含義和存在價值
2、爬蟲技術架構
3、組成爬蟲的關鍵模塊:URL管理器、HTML下載器和HTML解析器
4、實戰抓取百度百科1000個詞條頁面數據的抓取策略設定、實戰代碼編寫、爬蟲實例運行
5、一套極簡的可擴展爬蟲代碼,修改本代碼,你就能抓取任何互聯網網頁!
★第一章
課程介紹:
課程進行簡單的爬蟲講解----不需要登錄的靜態網頁抓取
1、爬蟲簡介
2、簡單爬蟲架構
3、URL管理器
4、網頁下載器urllib2
5、網頁解析器beautifulsoup
6、完整實例 爬蟲百度百科
★第二章,
爬蟲是什么 : 從一個url出發,自動訪問他所關聯的所有url,提取數據。
爬蟲價值 : 爬取互聯網數據為我所用,開發新產品提供更好的服務
?
?
★第三章
3-1 python簡單爬蟲架構
?
?
3-2? python簡單爬蟲架構 動態運行流程 【時序圖】
★第四章? url管理器和實現方法
4-1? url管理
管理待抓取url結合? 和? 已經抓取的url集合? ,防止重復抓取和循環抓取
url管理器支持的功能?至少5個
4-2?url管理器的實現方式
目前有三種。
?
?
?
★第五章?網頁下載器和? urllib2? 模塊 ?
5-1?網頁下載器簡介? ? ? ? ? 將互聯網上url對應的網頁下載到本地的工具
?
?
?
python有哪些網頁下載器?
?
5-2? urllib2? 下載器網頁的三種方法
①最簡潔方法:把url傳遞給urllib2模塊的urlopen方法? ?urllib2.urlopen(url)
②
?
?
③
?
?
?
三種方法功能依次更大更強
?
5.3?urllib2實例代碼演示
ps:我安裝的是Python3.5.2? ,使用第一種urllib2.urlopen()報錯,搜索發現官方3.0版本已經把urllib2,urlparse等五個模塊都并入了urllib中,也就是整合了,參考 ??http://blog.csdn.net/pythonniu/article/details/51855035? ,正確用法
- import?urllib.request??
- url="http://www.baidu.com"??
- get=urllib.request.urlopen(url).read()??
- print(get)??
?
?
★第六章? 網頁解析器和? beautifulsoup? 第三方模塊
6.1網頁解析器簡介
①正則表達式??
②Python自帶?html.parser
③第三方插件? beautifulsoup? 強大,能使用②?和?④
④第三方插件? ?lxml
?
①是模糊匹配,②③④是結構化解析。DOM樹 ,熟悉吧?乛?乛?
6.2beautifulsoup模塊簡介和安裝
該模塊屬于Python第三方模塊,用于從HTML或xml提取數據。
官網?http://www.crummmy.com/software/BeautifulSoup
在線安裝?beautifulsoup模塊,截圖如下【前提:已經有pip】
6.3beautifulsoup語法
流程:HTML網頁? ?→創建beautifulsoup對象(生成dom樹)??→搜索節點(find_all?方法?和?find方法,可以按照? 名稱、屬性、文字? 來搜索)???→?訪問節點名稱、屬性、文字
例子:
代碼如下:
?
?
6.4beautifulsoup實例測試
?
總結:課程教程是Python 2?版本,自己是3.x版本,總體還是從小白到?對python爬蟲整體概況有所了解一點吧。
?
轉載于:https://www.cnblogs.com/dxxdsw/p/10644765.html
總結
以上是生活随笔為你收集整理的python_2开发简单爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三星堆博物馆游览路线图
- 下一篇: 1042. 托普利兹矩阵