日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

python爬虫-爬取今日头条(图集)

發布時間:2024/4/11 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫-爬取今日头条(图集) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.工具使用

python的request包和json包

fiddle抓包工具

2.請求分析

?我們訪問該頁面,抓取請求,得到如下結果。

不難發現,在圖片加載之前數據量最大的就是search_content請求,其實了解后端開發的知道這是一個帶參數的請求且參數之一就是搜索關鍵詞,而且還有一個參數format=json,不妨猜測這是一個json請求,然后網頁利用這個json文件進行渲染。

3.文件獲取

我們嘗試解包,成功。

發現有20個結構相同的數組,而之前的請求包含數量和頁碼就是第一頁的20個,如此不難通過循環控制url來訪問每一頁的json文件。

4.json分析

不難發現,每一個帖子的圖片集合在image_list中,但是這些url訪問得到的圖都是很小的,我們看到image_list下面出現了large_image_url不難知道大圖的url結構,進行一個字符串替換即可。(也就是list替換為large)

5.文件存儲

利用二進制存儲到本地。由于嘗試需要,這里就不進行異常處理。

6.完整代碼

import requests import jsonbase_url = "https://www.toutiao.com" def get_pics(number):target_url = "https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E7%BE%8E%E5%A5%B3&autoload=true&count=20&cur_tab=3&from=gallery"target_url = target_url.replace("xxx", str(number))return target_urlif __name__ == '__main__':url_list = []for i in range(0, 1000, 20):url_list.append(get_pics(i))headers = {'Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Referer': 'http://www.xicidaili.com/nn/','Accept-Encoding': 'gzip, deflate, sdch','Accept-Language': 'zh-CN,zh;q=0.8',}rsp_list = []for item in url_list:rsp_list.append(requests.get(item, headers=headers, verify=False))pic_list = []for item in rsp_list:j = json.loads(item.text)['data']for item in j:try:for i in item['image_list']:pic_list.append("http:"+i['url'].replace("list", "large"))except Exception as e:passimport osnumber = 0os.chdir("zc2")for i in pic_list:s = requests.get(i, headers=headers).contentwith open(str(number)+".jpg", 'wb') as f:f.write(s)print(" 第{}張圖片下載完成".format(number))number += 1

?

總結

以上是生活随笔為你收集整理的python爬虫-爬取今日头条(图集)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。