python:第一个简单爬虫程序
生活随笔
收集整理的這篇文章主要介紹了
python:第一个简单爬虫程序
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
爬蟲(chóng)的套路
爬蟲(chóng)就是模擬瀏覽器行為,將別人網(wǎng)站的內(nèi)容,抓取下來(lái),提取自己想要的內(nèi)容。
第一步:分析爬取網(wǎng)站的url,請(qǐng)求的url需要哪些參數(shù)呀,要不要用戶(hù)認(rèn)證等。
第二步:模擬瀏覽器行為進(jìn)行網(wǎng)絡(luò)請(qǐng)求。
第三步:數(shù)據(jù)保存,在保存之前可以做數(shù)據(jù)清洗過(guò)濾等操作。
代碼的展示
from urllib import requestdef main():# 1、urlurl = "http://www.163.com/"# 模擬瀏覽器行為,防范被反爬蟲(chóng)header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.108 Safari/537.36 2345Explorer/8.8.3.16721"}# 2、網(wǎng)絡(luò)請(qǐng)求req = request.Request(url,headers=header)response = request.urlopen(req)# 查看爬取網(wǎng)頁(yè)的編碼 將讀取的內(nèi)容進(jìn)行解碼str = response.read().decode("gbk")# 3、保存文件with open("網(wǎng)易.html","w",encoding="gbk") as f:f.write(str)if __name__ == '__main__':main()爬取的內(nèi)容
就這樣簡(jiǎn)單幾行代碼就把別人網(wǎng)站內(nèi)容爬到本地了,其實(shí)還有很多工作要做得,這只是單純的爬了一個(gè)網(wǎng)頁(yè)下來(lái)。
總結(jié)
以上是生活随笔為你收集整理的python:第一个简单爬虫程序的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 汇编语言:利用栈的特性对内存数据进行逆置
- 下一篇: python的数据结构