日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫-爬取今日头条(图集)

發布時間:2024/4/11 python 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫-爬取今日头条(图集) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.工具使用

python的request包和json包

fiddle抓包工具

2.請求分析

?我們訪問該頁面,抓取請求,得到如下結果。

不難發現,在圖片加載之前數據量最大的就是search_content請求,其實了解后端開發的知道這是一個帶參數的請求且參數之一就是搜索關鍵詞,而且還有一個參數format=json,不妨猜測這是一個json請求,然后網頁利用這個json文件進行渲染。

3.文件獲取

我們嘗試解包,成功。

發現有20個結構相同的數組,而之前的請求包含數量和頁碼就是第一頁的20個,如此不難通過循環控制url來訪問每一頁的json文件。

4.json分析

不難發現,每一個帖子的圖片集合在image_list中,但是這些url訪問得到的圖都是很小的,我們看到image_list下面出現了large_image_url不難知道大圖的url結構,進行一個字符串替換即可。(也就是list替換為large)

5.文件存儲

利用二進制存儲到本地。由于嘗試需要,這里就不進行異常處理。

6.完整代碼

import requests import jsonbase_url = "https://www.toutiao.com" def get_pics(number):target_url = "https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E7%BE%8E%E5%A5%B3&autoload=true&count=20&cur_tab=3&from=gallery"target_url = target_url.replace("xxx", str(number))return target_urlif __name__ == '__main__':url_list = []for i in range(0, 1000, 20):url_list.append(get_pics(i))headers = {'Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Referer': 'http://www.xicidaili.com/nn/','Accept-Encoding': 'gzip, deflate, sdch','Accept-Language': 'zh-CN,zh;q=0.8',}rsp_list = []for item in url_list:rsp_list.append(requests.get(item, headers=headers, verify=False))pic_list = []for item in rsp_list:j = json.loads(item.text)['data']for item in j:try:for i in item['image_list']:pic_list.append("http:"+i['url'].replace("list", "large"))except Exception as e:passimport osnumber = 0os.chdir("zc2")for i in pic_list:s = requests.get(i, headers=headers).contentwith open(str(number)+".jpg", 'wb') as f:f.write(s)print(" 第{}張圖片下載完成".format(number))number += 1

?

總結

以上是生活随笔為你收集整理的python爬虫-爬取今日头条(图集)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。