日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

python_2开发简单爬虫

發布時間:2023/11/27 生活经验 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python_2开发简单爬虫 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?

?

?

?

2017年12月03日 16:43:01 獨行俠的守望 閱讀數:204 標簽: python爬蟲 更多
個人分類: Python
編輯
版權聲明:本文為博主原創文章,轉載請注明文章鏈接。 https://blog.csdn.net/xiaoanzi123/article/details/78700863
學習地址:http://www.imooc.com/learn/563 慕課網
課程須知
本課程是Python語言開發的高級課程1、Python編程語法;2、HTML語言基礎知識;3、正則表達式基礎知識;
老師告訴你能學到什么?
1、爬蟲技術的含義和存在價值
2、爬蟲技術架構
3、組成爬蟲的關鍵模塊:URL管理器、HTML下載器和HTML解析器
4、實戰抓取百度百科1000個詞條頁面數據的抓取策略設定、實戰代碼編寫、爬蟲實例運行
5、一套極簡的可擴展爬蟲代碼,修改本代碼,你就能抓取任何互聯網網頁!
★第一章
課程介紹:
課程進行簡單的爬蟲講解----不需要登錄的靜態網頁抓取
1、爬蟲簡介
2、簡單爬蟲架構
3、URL管理器
4、網頁下載器urllib2
5、網頁解析器beautifulsoup
6、完整實例 爬蟲百度百科
★第二章,
爬蟲是什么 : 從一個url出發,自動訪問他所關聯的所有url,提取數據。
爬蟲價值 : 爬取互聯網數據為我所用,開發新產品提供更好的服務

?

?

★第三章
3-1 python簡單爬蟲架構

?

?

3-2? python簡單爬蟲架構 動態運行流程 【時序圖】

★第四章? url管理器和實現方法

4-1? url管理

管理待抓取url結合? 和? 已經抓取的url集合? ,防止重復抓取和循環抓取

url管理器支持的功能?至少5個

4-2?url管理器的實現方式

目前有三種。

?

?

?

★第五章?網頁下載器和? urllib2? 模塊 ?

5-1?網頁下載器簡介? ? ? ? ? 將互聯網上url對應的網頁下載到本地的工具

?

?

?

python有哪些網頁下載器?

?

5-2? urllib2? 下載器網頁的三種方法

①最簡潔方法:把url傳遞給urllib2模塊的urlopen方法? ?urllib2.urlopen(url)

?

?

?

?

?

三種方法功能依次更大更強

?

5.3?urllib2實例代碼演示

ps:我安裝的是Python3.5.2? ,使用第一種urllib2.urlopen()報錯,搜索發現官方3.0版本已經把urllib2,urlparse等五個模塊都并入了urllib中,也就是整合了,參考 ??http://blog.csdn.net/pythonniu/article/details/51855035? ,正確用法

  1. import?urllib.request??
  2. url="http://www.baidu.com"??
  3. get=urllib.request.urlopen(url).read()??
  4. print(get)??

?

?

★第六章? 網頁解析器和? beautifulsoup? 第三方模塊

6.1網頁解析器簡介

①正則表達式??

②Python自帶?html.parser

③第三方插件? beautifulsoup? 強大,能使用②?和?④

④第三方插件? ?lxml

?

①是模糊匹配,②③④是結構化解析。DOM樹 ,熟悉吧?乛?乛?

6.2beautifulsoup模塊簡介和安裝

該模塊屬于Python第三方模塊,用于從HTML或xml提取數據。

官網?http://www.crummmy.com/software/BeautifulSoup

在線安裝?beautifulsoup模塊,截圖如下【前提:已經有pip】

6.3beautifulsoup語法

流程:HTML網頁? ?→創建beautifulsoup對象(生成dom樹)??→搜索節點(find_all?方法?和?find方法,可以按照? 名稱、屬性、文字? 來搜索)???→?訪問節點名稱、屬性、文字

例子

代碼如下:

?

?

6.4beautifulsoup實例測試

?

總結:課程教程是Python 2?版本,自己是3.x版本,總體還是從小白到?對python爬蟲整體概況有所了解一點吧。

?

轉載于:https://www.cnblogs.com/dxxdsw/p/10644765.html

總結

以上是生活随笔為你收集整理的python_2开发简单爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。