日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

简单网页爬虫

發(fā)布時間:2025/6/17 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 简单网页爬虫 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目錄

  • 爬蟲
    • 1.文字爬蟲
    • 2.圖片爬蟲
    • 3.視頻爬蟲

爬蟲

安裝requests模塊:pip install requests

1.文字爬蟲

import re # 導(dǎo)入re模塊 import requests # 導(dǎo)入request模塊response = requests.get('https://ishuo.cn/') # 獲取網(wǎng)頁內(nèi)容源代碼 data = response.text # 將網(wǎng)頁內(nèi)容源代碼存放在文本格式記錄data文件中result_list = re.findall('<div class="content">(.*?)</div>',data) # 找到要爬取的內(nèi)容(.*?)前后的共同點寫入列表 ''' <div class="content">與人a1人間的信任,就像是紙片,一旦破損,就不會再回到原來的樣子。</div> <div class="content">(.*?)</div><div class="content">一年奔波,塵緣遇了誰;一句珍重,天涯別了誰;一點靈犀,憑欄憶了.</div> <div class="content">(.*?)</div>''' for result in result_list:print(result) # 分別讀取

2.圖片爬蟲

import re import requestscount= 0 for i in range(2,4):# 'http://pic.netbian.com/index_{i}.html'跳轉(zhuǎn)下一頁繼續(xù)爬respone = requests.get(f'http://pic.netbian.com/index_{i}.html') #獲取網(wǎng)址源代碼內(nèi)容data = respone.text #文本形式記錄# print(data)result_list = re.findall('src="(.*?)"',data) #從data中獲取所要爬的共同的東西(圖片)for result in result_list:if result.endswith('jpg'): # 判斷挑選需要的圖片的格式result = f'http://pic.netbian.com{result}' # 圖片的網(wǎng)址# print(result)img_respone = requests.get(result) # 獲取圖片的內(nèi)容(二進(jìn)制記錄的內(nèi)容)img_name = result.split('/')[-1] # 每次循環(huán)分別記錄圖片名稱img_data = img_respone.content # 以字符形式記錄圖片# print(img_data)with open(img_name,'wb') as f: # 創(chuàng)建名字為img_name的圖片并打開f.write(img_data) # 以字符形式寫入圖片f.flush()count+=1print(f'爬取了{(lán)count}張圖片')

3.視頻爬蟲

import re import requestsresponse = requests.get('https://www.ku6.com/index') # 獲取網(wǎng)址代碼 data = response.text # 文本形式記錄網(wǎng)頁代碼count = 0 # print(data) result_list = re.findall('<a class="video-image-warp" target="_blank" href="(.*?)">',data) # 找到視頻網(wǎng)址的共同地方for result in result_list:# print(result)if result.startswith('/video'):# print(result)result = f'https://www.ku6.com{result}' # 補(bǔ)滿視頻網(wǎng)址# print(result)detail_response = requests.get(result) # 獲取單個視頻網(wǎng)址代碼detail_data = detail_response.text # 文本形式記錄單個視頻網(wǎng)頁代碼# src="https://rbv01.ku6.com/wifi/o_1dab1luo5oao1jnk1bpnk321hevckvs" >< / video >(????) # flvURL: "https://rbv01.ku6.com/wifi/o_1dab1luo5oao1jnk1bpnk321hevckvs" # flvURL: "https://rbv01.ku6.com/wifi/o_1dab1luo5udcici1r2vefj1jksbkvs"video_url = re.findall('flvURL: "(.*?)"',detail_data) # 找到單個視頻網(wǎng)址代碼# print(video_url)video_response = requests.get(video_url[0]) # video_url是包含一個元素的列表video_data = video_response.content # 以二進(jìn)制保存視頻video_name = f"{video_url[0].split('/')[-1]}.mp4" # 編輯視頻名字with open(video_name, 'wb') as fw: # 打開文件fw.write(video_data) # 寫入視頻fw.flush()count += 1print(f'爬取了{(lán)count}個視頻')

轉(zhuǎn)載于:https://www.cnblogs.com/yellowcloud/p/10858775.html

總結(jié)

以上是生活随笔為你收集整理的简单网页爬虫的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。