日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

简单网页爬虫

發布時間:2025/6/17 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 简单网页爬虫 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 爬蟲
    • 1.文字爬蟲
    • 2.圖片爬蟲
    • 3.視頻爬蟲

爬蟲

安裝requests模塊:pip install requests

1.文字爬蟲

import re # 導入re模塊 import requests # 導入request模塊response = requests.get('https://ishuo.cn/') # 獲取網頁內容源代碼 data = response.text # 將網頁內容源代碼存放在文本格式記錄data文件中result_list = re.findall('<div class="content">(.*?)</div>',data) # 找到要爬取的內容(.*?)前后的共同點寫入列表 ''' <div class="content">與人a1人間的信任,就像是紙片,一旦破損,就不會再回到原來的樣子。</div> <div class="content">(.*?)</div><div class="content">一年奔波,塵緣遇了誰;一句珍重,天涯別了誰;一點靈犀,憑欄憶了.</div> <div class="content">(.*?)</div>''' for result in result_list:print(result) # 分別讀取

2.圖片爬蟲

import re import requestscount= 0 for i in range(2,4):# 'http://pic.netbian.com/index_{i}.html'跳轉下一頁繼續爬respone = requests.get(f'http://pic.netbian.com/index_{i}.html') #獲取網址源代碼內容data = respone.text #文本形式記錄# print(data)result_list = re.findall('src="(.*?)"',data) #從data中獲取所要爬的共同的東西(圖片)for result in result_list:if result.endswith('jpg'): # 判斷挑選需要的圖片的格式result = f'http://pic.netbian.com{result}' # 圖片的網址# print(result)img_respone = requests.get(result) # 獲取圖片的內容(二進制記錄的內容)img_name = result.split('/')[-1] # 每次循環分別記錄圖片名稱img_data = img_respone.content # 以字符形式記錄圖片# print(img_data)with open(img_name,'wb') as f: # 創建名字為img_name的圖片并打開f.write(img_data) # 以字符形式寫入圖片f.flush()count+=1print(f'爬取了{count}張圖片')

3.視頻爬蟲

import re import requestsresponse = requests.get('https://www.ku6.com/index') # 獲取網址代碼 data = response.text # 文本形式記錄網頁代碼count = 0 # print(data) result_list = re.findall('<a class="video-image-warp" target="_blank" href="(.*?)">',data) # 找到視頻網址的共同地方for result in result_list:# print(result)if result.startswith('/video'):# print(result)result = f'https://www.ku6.com{result}' # 補滿視頻網址# print(result)detail_response = requests.get(result) # 獲取單個視頻網址代碼detail_data = detail_response.text # 文本形式記錄單個視頻網頁代碼# src="https://rbv01.ku6.com/wifi/o_1dab1luo5oao1jnk1bpnk321hevckvs" >< / video >(????) # flvURL: "https://rbv01.ku6.com/wifi/o_1dab1luo5oao1jnk1bpnk321hevckvs" # flvURL: "https://rbv01.ku6.com/wifi/o_1dab1luo5udcici1r2vefj1jksbkvs"video_url = re.findall('flvURL: "(.*?)"',detail_data) # 找到單個視頻網址代碼# print(video_url)video_response = requests.get(video_url[0]) # video_url是包含一個元素的列表video_data = video_response.content # 以二進制保存視頻video_name = f"{video_url[0].split('/')[-1]}.mp4" # 編輯視頻名字with open(video_name, 'wb') as fw: # 打開文件fw.write(video_data) # 寫入視頻fw.flush()count += 1print(f'爬取了{count}個視頻')

轉載于:https://www.cnblogs.com/yellowcloud/p/10858775.html

總結

以上是生活随笔為你收集整理的简单网页爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。