我的爬虫第一天
爬蟲
- 一個簡單的爬蟲:
- 1.安裝request
- 2.測試是否安裝成功
- 3.新建項目
- 4.使用requests請求網頁
- 4.如何用python解析網頁源碼
- 5.簡單的保存數據的方法
一個簡單的爬蟲:
1.安裝request
pip install requests2.測試是否安裝成功
輸入python
不報錯就是安裝成功
3.新建項目
4.使用requests請求網頁
import requests #引入requests包resp=requests.get('https://www.baidu.com') #請求百度首頁 print(resp) #打印請求結果的狀態碼(正常的狀態碼是200,異常狀態碼就很多了,比如404(找不到網頁)、301(重定向)等。 print(resp.content) #打印請求到的網頁源碼請求正常:
4.如何用python解析網頁源碼
網頁源碼解析器 BeautifulSoup:但是使用bs4還需要安裝另一個類庫lxml,用來代替bs4默認的解析器。之所以這樣做,是因為默認的那個實在太慢了,換用了lxml后,可以大幅度提升解析速度。
安裝:命令行中輸入以下指令并回車,安裝bs4:
Windows環境下使用pip install安裝lxml庫:
測試是否安裝成功:
沒有報錯,安裝成功
使用BeautifulSoup+lxml解析網頁源碼:
import requests #引入requests包 from bs4 import BeautifulSoupresp=requests.get('https://www.baidu.com') #請求百度首頁 print(resp) #打印請求結果的狀態碼(正常的狀態碼是200,異常狀態碼就很多了,比如404(找不到網頁)、301(重定向)等。 print(resp.content) #打印請求到的網頁源碼bsobj=BeautifulSoup(resp.content,'lxml') # 將網頁源碼構造成BeautifulSoup對象,方便操作 #將網頁的源碼轉化成了BeautifulSoup的對象,這樣我們可以向操作DOM模型類似地去操作它。 a_list=bsobj.find_all('a') #獲取網頁中所有a標簽對象 for a in a_list:print(a.get('href')) #打印a標簽對象的href屬性,即這個對象指向的鏈接地址5.簡單的保存數據的方法
將剛才提取出來的鏈接保存到一個名稱為url.txt的文本里面去,將上面的代碼稍作修改。
import requests #引入requests包 from bs4 import BeautifulSoupresp=requests.get('https://www.baidu.com') #請求百度首頁 print(resp) #打印請求結果的狀態碼(正常的狀態碼是200,異常狀態碼就很多了,比如404(找不到網頁)、301(重定向)等。 print(resp.content) #打印請求到的網頁源碼bsobj=BeautifulSoup(resp.content,'lxml') # 將網頁源碼構造成BeautifulSoup對象,方便操作 #將網頁的源碼轉化成了BeautifulSoup的對象,這樣我們可以向操作DOM模型類似地去操作它。 a_list=bsobj.find_all('a') #獲取網頁中所有a標簽對象 for a in a_list:print(a.get('href')) #打印a標簽對象的href屬性,即這個對象指向的鏈接地址 text='' #創建一個空字符串 for a in a_list:href=a.get('href') #獲取a標簽對象的href屬性,即這個對象指向的鏈接地址text+=href+'\n' #加入到字符串中,并換行 with open('url.txt','w') as f: #以寫的方式打開一個url.txtf.write(text)總結
- 上一篇: python获取股票数据_python根
- 下一篇: jlist放jbutton 按钮事件失效