日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

大数据——python爬虫

發布時間:2023/12/10 python 60 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据——python爬虫 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

爬蟲——首次實現爬取圖像

前言:早在寫論文期間想利用爬蟲技術爬取圖像相關圖像數據,作為大數據、深度學習的數據資源。著手學習python,但由于各種原因最終沒有實現,而是用了最笨的鼠標右鍵-保存操作,現在來彌補這一遺憾。文章主要參考嵐漾憶雨博主的Python爬蟲之——爬取妹子圖片。

一、平臺

本項目實現平臺為Win10,Pycharm,這里就不具體介紹了。

二、準備條件

學習python相關基礎知識后,發現距離掌握爬蟲技術還是有一定差距,主要是對爬蟲技術中涉及到幾個第三方庫認識不夠。但是在實現本項目后發現,如果你的正則表達學習的夠好,那么你完全可以不依靠第三方庫來實現(此處待寫完本博再斟酌)。

準備的第三方庫為:

requests??
beautifulsoup4??

這兩個庫在這里不做解釋,需大家自己搜資料學習,因為簡單解釋對于完成本項目顯得徒勞,因此需要深入學習。

三、具體實現過程

原理就刻板的敘述了,其大體過程就是使用python編程按照個人目的,自動獲取網頁上的圖像信息,并保存下來。

本文爬取的目標是:http://www.haijun360.com/news/QZJ/QZJ.html

具體分為以下幾個階段:

  • 獲取HTML頁面信息;
  • 處理HTML頁面數據,提取所需信息;
  • 保存提取到得到信息。
  • 第1、2步可以循環使用,直到找到所需信息為止。

    1.獲取HTML頁面信息

    個人感覺爬蟲的關鍵技術主要集中在第一步,第一步體現了和網站運維人員的斗智斗勇。簡單說就是你要把自己的爬蟲程序偽裝成瀏覽器,這樣才不會被對方服務器發現。其中對于初學者主要涉及get及post請求兩種,在將自己偽裝成瀏覽器的技術方面會涉及到headers,繼而是cookie,然后就是動態token,及驗證碼等。

    最簡單的是模擬瀏覽器的方法是,是使用瀏覽器的User-Agent,即headers={'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'},不同的瀏覽器,可能會不同,可以在網頁代碼中查看(F12打開網頁代碼),如下圖所示:

    #coding=utf-8import requestsurl = 'www.baidu.com'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}html = requests.get(url,headers=header)

    代碼中的url可以替換為你想爬取的目標網站,以上代碼完成了爬蟲的第一步(這是爬取沒有不設防的網站,也是最簡單的的)。

    接下來可以采用bs4的Beautifulsoup來解析響應的html.

    2.處理HTML頁面數據,提取所需信息

    解析獲取到的HTML,方法很多,可以將其轉換成不同的格式,也可以通過不同的方法來解析,如正則表達、xpath,Beautifulsoup等。這里采用Beautifulsoup,簡單....

    soup = BeautifulSoup(html.text,'html.parser')pages = soup.find_all('table',class_='weiquan')pic_str = page.find('a').attrs['href']

    這里僅僅截取程序中的一段代碼,使用時針對個人的情況采用Beautiful中的find及find_all函數。具體使用方法,可以用百度查找,有很多相關的介紹。

    3.保存提取到得到信息

    第二步提取到了相關網頁的url或者是需要下載的圖片的url,那么可以通過python3的file函數來保存數據。

    with open(filename,'wb+') as f:f.write(html.content)

    open的具體參數可以在相關文檔上查找。其中的html.content為網頁提取到的內容。

    以上是學習pyhton爬蟲的相關心得,時間有限,寫的比較粗糙,其中不免有錯,歡迎讀者提問。

    總結

    以上是生活随笔為你收集整理的大数据——python爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。