python爬虫-爬取今日头条(图集)
生活随笔
收集整理的這篇文章主要介紹了
python爬虫-爬取今日头条(图集)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.工具使用
python的request包和json包
fiddle抓包工具
2.請求分析
?我們訪問該頁面,抓取請求,得到如下結果。
不難發現,在圖片加載之前數據量最大的就是search_content請求,其實了解后端開發的知道這是一個帶參數的請求且參數之一就是搜索關鍵詞,而且還有一個參數format=json,不妨猜測這是一個json請求,然后網頁利用這個json文件進行渲染。
3.文件獲取
我們嘗試解包,成功。
發現有20個結構相同的數組,而之前的請求包含數量和頁碼就是第一頁的20個,如此不難通過循環控制url來訪問每一頁的json文件。
4.json分析
不難發現,每一個帖子的圖片集合在image_list中,但是這些url訪問得到的圖都是很小的,我們看到image_list下面出現了large_image_url不難知道大圖的url結構,進行一個字符串替換即可。(也就是list替換為large)
5.文件存儲
利用二進制存儲到本地。由于嘗試需要,這里就不進行異常處理。
6.完整代碼
import requests import jsonbase_url = "https://www.toutiao.com" def get_pics(number):target_url = "https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E7%BE%8E%E5%A5%B3&autoload=true&count=20&cur_tab=3&from=gallery"target_url = target_url.replace("xxx", str(number))return target_urlif __name__ == '__main__':url_list = []for i in range(0, 1000, 20):url_list.append(get_pics(i))headers = {'Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Referer': 'http://www.xicidaili.com/nn/','Accept-Encoding': 'gzip, deflate, sdch','Accept-Language': 'zh-CN,zh;q=0.8',}rsp_list = []for item in url_list:rsp_list.append(requests.get(item, headers=headers, verify=False))pic_list = []for item in rsp_list:j = json.loads(item.text)['data']for item in j:try:for i in item['image_list']:pic_list.append("http:"+i['url'].replace("list", "large"))except Exception as e:passimport osnumber = 0os.chdir("zc2")for i in pic_list:s = requests.get(i, headers=headers).contentwith open(str(number)+".jpg", 'wb') as f:f.write(s)print(" 第{}張圖片下載完成".format(number))number += 1?
總結
以上是生活随笔為你收集整理的python爬虫-爬取今日头条(图集)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python3了,你还在用%和forma
- 下一篇: python实战-pdf文件转txt