當前位置：首頁 > 编程语言 > python >内容正文

python

爬虫1_python2

發(fā)布時間：2023/12/18 python 35 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫1_python2 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

# -*- coding: UTF-8 -*- # python2爬蟲 import urllibf = urllib.urlopen("http://www.itcast.cn/") print f.readline() # 讀取html頁面的第一行 print f.read() # ，讀取源代碼，該網(wǎng)址源代碼為utf-8格式 # read(),readline(),readlines(),fileno(),close(),這些使用方法與文件對象完全一樣 print f.info() # 獲取網(wǎng)頁所在服務(wù)器的頭部信息 print f.getcode() # 獲取網(wǎng)頁狀態(tài)碼 print f.geturl() # 返回請求的url f.close() # 打開文件后，記得一定關(guān)閉防止內(nèi)存沒有回收，后果不堪回想print urllib.urlopen('http://www.itcast.cn/23644657dafhgsg').getcode() # 網(wǎng)頁狀態(tài)碼 # 200正常訪問 301重定向 # 302臨時重定向（不常見） 404網(wǎng)頁不存在 403禁止訪問 500服務(wù)器忙，無響應(yīng)，過會才行 # HTTP權(quán)威指南，專門介紹http協(xié)議，Web開發(fā)和服務(wù)器端開發(fā)方向必備url = 'http://www.163.com/' html = urllib.urlopen(url) # 打開網(wǎng)頁 print html.read().decode('gbk').encode('utf-8') # 該網(wǎng)址源代碼格式是gb2312，全部統(tǒng)一成gbk，然后再轉(zhuǎn)化為utf-8格式 print html.read().decode('gbk','ignore').encode('utf-8')#當一些小網(wǎng)站編碼混亂不規(guī)范時，可用'ignore'來幫助解決 # 總結(jié) # urllib 簡單易用的抓取模塊 # urllib.urlopen()方法，獲得類文件對象 # read()讀取文件內(nèi)容 # info()獲取網(wǎng)頁Header信息 # getcode()獲取網(wǎng)頁狀態(tài)碼 # geturl()獲取傳入的網(wǎng)址urlf = urllib.urlopen('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG') print f.getcode() # 查看是否能打開 print f.readline() # 圖片的內(nèi)容看不懂 f.close() # urlretrieve方法將url定位到的html文件下載到你的本地硬盤中。如果不指定filename，則會存為臨時文件。 urllib.urlretrieve('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG', filename='D:\pachong\worm1.jpg') url = "http://www.itcast.cn/" urllib.urlretrieve(url, 'D:\\pachong\\download.txt') # 網(wǎng)頁抓取，下載網(wǎng)頁(也可以將txt格式轉(zhuǎn)成html) urllib.urlretrieve(url, 'D:\\pachong\\download.html')

轉(zhuǎn)載于:https://www.cnblogs.com/tianqizhi/p/8528033.html

總結(jié)

以上是生活随笔為你收集整理的爬虫1_python2的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

爬虫

上一篇： PHP 如何判断当前用户已在别处登录
下一篇： Python中执行外部命令

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

爬虫1_python2

總結(jié)