【Python 爬虫】 2、HTTP基本原理
HTTP基本原理
基本概念
URL
URL(Uniform Resource Locator),即統(tǒng)一資源定位符,也就是我們說(shuō)的網(wǎng)址,統(tǒng)一資源定位符是對(duì)可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問(wèn)方法的一種簡(jiǎn)介的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。互聯(lián)網(wǎng)上每個(gè)文件都有一個(gè)唯一的URL,它包含的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它。
hypertext
hypertext(超文本),瀏覽器里面看到的網(wǎng)頁(yè)就是超文本解析而成,其網(wǎng)頁(yè)源代碼是一系列的html代碼,如“img”表示圖片,“p”指定段落等。
?
?
Http基本原理
http和https:訪問(wèn)資源需要的協(xié)議類(lèi)型,還有其他的類(lèi)型,比如ftp,sftp,smb等;
http:Hyper text transfer protocol,超文本傳輸協(xié)議,網(wǎng)絡(luò)傳輸超文本數(shù)據(jù)到本地瀏覽器的傳送協(xié)議,保證高效而準(zhǔn)確的傳送超文本文檔;
https:Hyper text transfer protocol over secure socket layer,以安全為目標(biāo)的http通道,http下加入ssl層。作用是建立一個(gè)安全通道來(lái)保證數(shù)據(jù)傳輸?shù)陌踩?#xff0c;確認(rèn)網(wǎng)站的真實(shí)性;
Http請(qǐng)求過(guò)程
瀏覽器中輸入url后,瀏覽器向網(wǎng)站所在服務(wù)器發(fā)送一個(gè)請(qǐng)求,網(wǎng)站服務(wù)器接收請(qǐng)求,并對(duì)這個(gè)請(qǐng)求進(jìn)行處理和解析,然后返回對(duì)應(yīng)的響應(yīng),傳回給瀏覽器,再通過(guò)瀏覽器解析出來(lái)。
?請(qǐng)求:包括四部分內(nèi)容
- 請(qǐng)求的網(wǎng)站(request url)
- 請(qǐng)求的方法(request method)
- 請(qǐng)求頭(request header):用來(lái)說(shuō)明服務(wù)器要使用的附加信息,比較重要的信息有cookie和user-agent。
- 請(qǐng)求體(request body):一般承載的內(nèi)容是post請(qǐng)求中的表單數(shù)據(jù),對(duì)于get請(qǐng)求,請(qǐng)求體為空。
?
?
請(qǐng)求的方法主要分為get和post。
get請(qǐng)求:
請(qǐng)求中的參數(shù)包含在url里面;
請(qǐng)求提交的數(shù)據(jù)最多只有1024字節(jié)(長(zhǎng)度限制);
百度中輸入關(guān)鍵字,其中wd表示要搜索的關(guān)鍵字
post請(qǐng)求:
表單提交時(shí)候發(fā)起,比如用戶登錄功能;
數(shù)據(jù)以表單的形式傳輸,不會(huì)體現(xiàn)在url中;
請(qǐng)求提交的數(shù)據(jù)沒(méi)有大小限制;
數(shù)據(jù)傳輸更安全(因?yàn)閰?shù)不會(huì)體現(xiàn)在url中,比如銀行卡賬戶和密碼);
?
?
與50位技術(shù)專(zhuān)家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的【Python 爬虫】 2、HTTP基本原理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【Python 爬虫】 1、爬虫基础概念
- 下一篇: 【Python 爬虫】 4、爬虫基本原理