當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

我的爬虫第一天

發布時間：2024/7/5 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了我的爬虫第一天小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

爬蟲

一個簡單的爬蟲：
- 1.安裝request
- 2.測試是否安裝成功
- 3.新建項目
- 4.使用requests請求網頁
- 4.如何用python解析網頁源碼
- 5.簡單的保存數據的方法

一個簡單的爬蟲：

1.安裝request

pip install requests

2.測試是否安裝成功

輸入python

import requests

不報錯就是安裝成功

3.新建項目

4.使用requests請求網頁

import requests #引入requests包resp=requests.get('https://www.baidu.com') #請求百度首頁 print(resp) #打印請求結果的狀態碼（正常的狀態碼是200，異常狀態碼就很多了，比如404（找不到網頁）、301（重定向）等。 print(resp.content) #打印請求到的網頁源碼

請求正常：

4.如何用python解析網頁源碼

網頁源碼解析器 BeautifulSoup：但是使用bs4還需要安裝另一個類庫lxml，用來代替bs4默認的解析器。之所以這樣做，是因為默認的那個實在太慢了，換用了lxml后，可以大幅度提升解析速度。
安裝：命令行中輸入以下指令并回車，安裝bs4：

Windows環境下使用pip install安裝lxml庫：

測試是否安裝成功：

import bs4 import lxml

沒有報錯，安裝成功

使用BeautifulSoup+lxml解析網頁源碼：

import requests #引入requests包 from bs4 import BeautifulSoupresp=requests.get('https://www.baidu.com') #請求百度首頁 print(resp) #打印請求結果的狀態碼（正常的狀態碼是200，異常狀態碼就很多了，比如404（找不到網頁）、301（重定向）等。 print(resp.content) #打印請求到的網頁源碼bsobj=BeautifulSoup(resp.content,'lxml') # 將網頁源碼構造成BeautifulSoup對象，方便操作 #將網頁的源碼轉化成了BeautifulSoup的對象，這樣我們可以向操作DOM模型類似地去操作它。 a_list=bsobj.find_all('a') #獲取網頁中所有a標簽對象 for a in a_list:print(a.get('href')) #打印a標簽對象的href屬性，即這個對象指向的鏈接地址

5.簡單的保存數據的方法

將剛才提取出來的鏈接保存到一個名稱為url.txt的文本里面去，將上面的代碼稍作修改。

總結

以上是生活随笔為你收集整理的我的爬虫第一天的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

爬虫

上一篇： python获取股票数据_python根
下一篇： jlist放jbutton 按钮事件失效