爬虫1_python2
生活随笔
收集整理的這篇文章主要介紹了
爬虫1_python2
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
# -*- coding: UTF-8 -*-
# python2爬蟲
import urllibf = urllib.urlopen("http://www.itcast.cn/")
print f.readline() # 讀取html頁面的第一行
print f.read() # ,讀取源代碼,該網(wǎng)址源代碼為utf-8格式
# read(),readline(),readlines(),fileno(),close(),這些使用方法與文件對象完全一樣
print f.info() # 獲取網(wǎng)頁所在服務(wù)器的頭部信息
print f.getcode() # 獲取網(wǎng)頁狀態(tài)碼
print f.geturl() # 返回請求的url
f.close() # 打開文件后,記得一定關(guān)閉防止內(nèi)存沒有回收,后果不堪回想print urllib.urlopen('http://www.itcast.cn/23644657dafhgsg').getcode()
# 網(wǎng)頁狀態(tài)碼
# 200正常訪問 301重定向
# 302臨時重定向(不常見) 404網(wǎng)頁不存在 403禁止訪問 500服務(wù)器忙,無響應(yīng),過會才行
# HTTP權(quán)威指南,專門介紹http協(xié)議,Web開發(fā)和服務(wù)器端開發(fā)方向必備url = 'http://www.163.com/'
html = urllib.urlopen(url) # 打開網(wǎng)頁
print html.read().decode('gbk').encode('utf-8') # 該網(wǎng)址源代碼格式是gb2312,全部統(tǒng)一成gbk,然后再轉(zhuǎn)化為utf-8格式
print html.read().decode('gbk','ignore').encode('utf-8')#當一些小網(wǎng)站編碼混亂不規(guī)范時,可用'ignore'來幫助解決
# 總結(jié)
# urllib 簡單易用的抓取模塊
# urllib.urlopen()方法,獲得類文件對象
# read()讀取文件內(nèi)容
# info()獲取網(wǎng)頁Header信息
# getcode()獲取網(wǎng)頁狀態(tài)碼
# geturl()獲取傳入的網(wǎng)址urlf = urllib.urlopen('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG')
print f.getcode() # 查看是否能打開
print f.readline() # 圖片的內(nèi)容看不懂
f.close()
# urlretrieve方法將url定位到的html文件下載到你的本地硬盤中。如果不指定filename,則會存為臨時文件。
urllib.urlretrieve('http://i1.szhomeimg.com/n/2014/02/02/0202002423269.JPG', filename='D:\pachong\worm1.jpg')
url = "http://www.itcast.cn/"
urllib.urlretrieve(url, 'D:\\pachong\\download.txt') # 網(wǎng)頁抓取,下載網(wǎng)頁(也可以將txt格式轉(zhuǎn)成html)
urllib.urlretrieve(url, 'D:\\pachong\\download.html')
轉(zhuǎn)載于:https://www.cnblogs.com/tianqizhi/p/8528033.html
總結(jié)
以上是生活随笔為你收集整理的爬虫1_python2的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PHP 如何判断当前用户已在别处登录
- 下一篇: Python中执行外部命令