日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

01爬虫基本原理及Requests库下载

發布時間:2025/7/25 编程问答 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 01爬虫基本原理及Requests库下载 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、爬蟲基本原理

1.什么是爬蟲

? 爬蟲就是爬取數據

2.什么是互聯網?

? 就是由一堆網絡設備,把一臺臺的電腦互聯在一起

3.互聯網建立的目的

? 數據的傳遞和數據共享

4.什么是數據?

? 例如:

? 電商平臺的商業信息(淘寶、京東、亞馬遜)

? 鏈家、自如等租房信息

? 股票政券投資信息

? 12306票務信息

? ....

4.1什么是進程和線程

? 打比方:打開QQ是進程

? QQ中的很多群是線程

5.什么是上網

? 普通用戶:

? 打開瀏覽器

? →輸入網址

? →往目標主機發送請求

? →返回響應數據

? →把數據渲染到瀏覽器中

? 爬蟲程序:

? 模擬瀏覽器

? →往目標主機發送請求

? →返回響應數據

? →提取有價值的信息

? →保存數據(文件寫入本地、持久化到數據庫)

6.爬蟲的全過程

? 1.發送請求

? 請求庫:Requests/Selenium

? 2.獲取響應數據

? 3.解析數據

? 解析庫:BeautifulSoup4

? 4.保存數據

? 存儲庫:文件保存/MongoDB

總結

假如把互聯網中的數據比作一座寶藏,爬蟲其實就是在挖取寶藏

二、Requests請求庫

1.安裝

方法一:pip3 install requests

如果報錯,則是環境變量沒有配好,可以在pycharm中下載

方法二:



2.分析請求流程(模擬瀏覽器)

? -百度

? 1.請求url:https://www.baidu.com/

? 2.請求方式

? 3.響應狀態碼

三、爬蟲三部曲(測試)

1.發送請求

# 發送請求 def get_page(url):response = requests.get(url)return response

2.解析數據

#解析主頁頁面 import re def pare_index(html):#findall 匹配所有# re.findall('正則匹配規則','匹配文本','匹配模式')#re.S 對全部文本進行搜索detail_urls = re.findall('<div class="items"><a class="imglink" href="(.*?)"',html,re.S)return detail_urls# 解析詳情頁 def pare_detail(html):detail_urls = re.findall('<sourse src="(.*?)">',html,re.S)return detail_urls

3.保存數據

#保存文件 import uuid def save_movie(content):with open(f'{uuid.uuid4()}','wb') as f:f.write(content)print("視頻下載完畢")

轉載于:https://www.cnblogs.com/Crystal-Zh/p/11113823.html

總結

以上是生活随笔為你收集整理的01爬虫基本原理及Requests库下载的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。