當前位置：首頁 > 编程语言 > python >内容正文

python

大数据——python爬虫

發布時間：2023/12/10 python 60 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据——python爬虫小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

爬蟲——首次實現爬取圖像

前言：早在寫論文期間想利用爬蟲技術爬取圖像相關圖像數據，作為大數據、深度學習的數據資源。著手學習python，但由于各種原因最終沒有實現，而是用了最笨的鼠標右鍵-保存操作，現在來彌補這一遺憾。文章主要參考嵐漾憶雨博主的Python爬蟲之——爬取妹子圖片。

一、平臺

本項目實現平臺為Win10，Pycharm，這里就不具體介紹了。

二、準備條件

學習python相關基礎知識后，發現距離掌握爬蟲技術還是有一定差距，主要是對爬蟲技術中涉及到幾個第三方庫認識不夠。但是在實現本項目后發現，如果你的正則表達學習的夠好，那么你完全可以不依靠第三方庫來實現（此處待寫完本博再斟酌）。

準備的第三方庫為：

requests??
beautifulsoup4??

這兩個庫在這里不做解釋，需大家自己搜資料學習，因為簡單解釋對于完成本項目顯得徒勞，因此需要深入學習。

三、具體實現過程

原理就刻板的敘述了，其大體過程就是使用python編程按照個人目的，自動獲取網頁上的圖像信息，并保存下來。

本文爬取的目標是：http://www.haijun360.com/news/QZJ/QZJ.html

具體分為以下幾個階段:

獲取HTML頁面信息；

處理HTML頁面數據，提取所需信息；

保存提取到得到信息。

第1、2步可以循環使用，直到找到所需信息為止。

1.獲取HTML頁面信息

個人感覺爬蟲的關鍵技術主要集中在第一步，第一步體現了和網站運維人員的斗智斗勇。簡單說就是你要把自己的爬蟲程序偽裝成瀏覽器，這樣才不會被對方服務器發現。其中對于初學者主要涉及get及post請求兩種，在將自己偽裝成瀏覽器的技術方面會涉及到headers，繼而是cookie，然后就是動態token，及驗證碼等。

最簡單的是模擬瀏覽器的方法是，是使用瀏覽器的User-Agent，即headers={'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'},不同的瀏覽器，可能會不同，可以在網頁代碼中查看（F12打開網頁代碼），如下圖所示：

#coding=utf-8import requestsurl = 'www.baidu.com'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}html = requests.get(url,headers=header)

代碼中的url可以替換為你想爬取的目標網站，以上代碼完成了爬蟲的第一步（這是爬取沒有不設防的網站，也是最簡單的的）。

接下來可以采用bs4的Beautifulsoup來解析響應的html.

2.處理HTML頁面數據，提取所需信息

解析獲取到的HTML，方法很多，可以將其轉換成不同的格式，也可以通過不同的方法來解析，如正則表達、xpath，Beautifulsoup等。這里采用Beautifulsoup，簡單....

soup = BeautifulSoup(html.text,'html.parser')pages = soup.find_all('table',class_='weiquan')pic_str = page.find('a').attrs['href']

這里僅僅截取程序中的一段代碼，使用時針對個人的情況采用Beautiful中的find及find_all函數。具體使用方法，可以用百度查找，有很多相關的介紹。

3.保存提取到得到信息

第二步提取到了相關網頁的url或者是需要下載的圖片的url，那么可以通過python3的file函數來保存數據。

with open(filename,'wb+') as f:f.write(html.content)

open的具體參數可以在相關文檔上查找。其中的html.content為網頁提取到的內容。

以上是學習pyhton爬蟲的相關心得，時間有限，寫的比較粗糙，其中不免有錯，歡迎讀者提問。

總結

以上是生活随笔為你收集整理的大数据——python爬虫的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： JAVA----爬虫（一）JSoup
下一篇： DataLogic 工业串口扫码器Pyt