HTTP1.1中CHUNKED编码解析(转载)
HTTP1.1中CHUNKED編碼解析
一般HTTP通信時,會使用Content-Length頭信息性來通知用戶代理(通常意義上是瀏覽器)服務器發送的文檔內容長度,該頭信息定義于HTTP1.0協議RFC??1945??10.4章節中。瀏覽器接收到此頭信息后,接受完Content-Length中定義的長度字節后開始解析頁面,但如果服務端有部分數據延遲發送嗎,則會出現瀏覽器白屏,造成比較糟糕的用戶體驗。
解決方案是在HTTP1.1協議中,RFC??2616中14.41章節中定義的Transfer-Encoding: chunked的頭信息,chunked編碼定義在3.6.1中,所有HTTP1.1?應用都支持此使用trunked編碼動態的提供body內容的長度的方式。進行Chunked編碼傳輸的HTTP數據要在消息頭部設置:Transfer-Encoding: chunked表示Content Body將用chunked編碼傳輸內容。根據定義,瀏覽器不需要等到內容字節全部下載完成,只要接收到一個chunked塊就可解析頁面.并且可以下載html中定義的頁面內容,包括js,css,image等。
采用chunked編碼有兩種選擇,一種是設定Server的IO buffer長度讓Server自動flush buffer中的內容,另一種是手動調用IO中的flush函數。不同的語言IO中都有flush功能:
l?????????php:??? ob_flush(); flush();
l?????????perl:?? STDOUT->autoflush(1);
l?????????java:? out.flush();
l?????????python:? sys.stdout.flush()
l?????????ruby:? stdout.flush
采用HTTP1.1的Transfer-Encoding:chunked,并且把IO的buffer flush下來,以便瀏覽器更早的下載頁面配套資源。當不能預先確定報文體的長度時,不可能在頭中包含Content-Length域來指明報文體長度,此時就需要通過Transfer-Encoding域來確定報文體長度。
Chunked編碼一般使用若干個chunk串連而成,最后由一個標明長度為0的chunk標示結束。每個chunk分為頭部和正文兩部分,頭部內容指定下一段正文的字符總數(非零開頭的十六進制的數字)和數量單位(一般不寫,表示字節).正文部分就是指定長度的實際內容,兩部分之間用回車換行(CRLF)隔開。在最后一個長度為0的chunk中的內容是稱為footer的內容,是一些附加的Header信息(通常可以直接忽略)。
上述解釋過于官方,簡而言之,chunked編碼的基本方法是將大塊數據分解成多塊小數據,每塊都可以自指定長度,其具體格式如下(BNF文法):
Chunked-Body ? = *chunk ? ? ? ? ? ?//0至多個chunk
last-chunk ? ? ? ? //最后一個chunk
trailer ? ? ? ? ? ?//尾部
CRLF ? ? ? ? ? ? ? //結束標記符
chunk ? ? ? ? ?= chunk-size [ chunk-extension ] CRLF
chunk-data CRLF
chunk-size ? ? = 1*HEX
last-chunk ? ? = 1*("0") [ chunk-extension ] CRLF
chunk-extension= *( ";" chunk-ext-name [ "=" chunk-ext-val ] )
chunk-ext-name = token
chunk-ext-val ?= token | quoted-string
chunk-data ? ? = chunk-size(OCTET)
trailer ? ? ? ?= *(entity-header CRLF)
解釋:
l?????????Chunked-Body表示經過chunked編碼后的報文體。報文體可以分為chunk, last-chunk,trailer和結束符四部分。chunk的數量在報文體中最少可以為0,無上限;
l?????????每個chunk的長度是自指定的,即,起始的數據必然是16進制數字的字符串,代表后面chunk-data的長度(字節數)。這個16進制的字符串第一個字符如果是“0”,則表示chunk-size為0,該chunk為last-chunk,無chunk-data部分。
l?????????可選的chunk-extension由通信雙方自行確定,如果接收者不理解它的意義,可以忽略。
l?????????trailer是附加的在尾部的額外頭域,通常包含一些元數據(metadata, meta means "about information"),這些頭域可以在解碼后附加在現有頭域之后
下面分析用ethereal抓包使用Firefox與某網站通信的結果(從頭域結束符后開始):
Address ?0.......................... ?f
000c0?? ? ? ? ? ? ? ? ? ? ??31
000d0 ? ?66 66 63 0d 0a ............... ? // ASCII碼:1ffc/r/n, chunk-data數據起始地址為000d5
顯然,“1ffc”為第一個chunk的chunk-size,轉換為int為8188。由于1ffc后,馬上就是CRLF,因此沒有chunk-extension。chunk-data的起始地址為000d5,?計算可知下一塊chunk的起始
地址為000d5+1ffc + 2=020d3,如下:
020d0 ? ?.. 0d 0a 31 66 66 63 0d 0a .... // ASCII碼:/r/n1ffc/r/n
前一個0d0a是上一個chunk的結束標記符,后一個0d0a則是chunk-size和chunk-data的分隔符。
此塊chunk的長度同樣為8188,?依次類推,直到最后一塊
100e0 ? ? ? ? ? ? ? ? ? ? ? ? ?0d 0a 31
100f0 ? ?65 61 39 0d 0a...... ? ? ? ? ? ?//ASII碼:/r/n/1ea9/r/n
此塊長度為0x1ea9 = 7849,?下一塊起始為100f5 + 1ea9 + 2 = 11fa0,如下:
11fa0 ? ?30 0d 0a 0d 0a ? ? ? ? ? ? ? ? ?//ASCII碼:0/r/n/r/n
“0”說明當前chunk為last-chunk,?第一個0d 0a為chunk結束符。第二個0d0a說明沒有trailer部分,整個Chunk-body結束。
解碼流程:
對chunked編碼進行解碼的目的是將分塊的chunk-data整合恢復成一塊作為報文體,同時記錄此塊體的長度。
RFC2616中附帶的解碼流程如下:(偽代碼)
length := 0 ? ? ? ? //長度計數器置0
read chunk-size, chunk-extension (if any) and CRLF ? ? ?//讀取chunk-size, chunk-extension和CRLF
while(chunk-size > 0 ) ?
?{ ? ? ? ? ? ?//表明不是last-chunk
read chunk-data and CRLF ? ? ? ? ? ?//讀chunk-size大小的chunk-data,skip CRLF
append chunk-data to entity-body ? ? //將此塊chunk-data追加到entity-body后
length := length + chunk-size
read chunk-size and CRLF ? ? ? ? ?//讀取新chunk的chunk-size?和?CRLF
}
read entity-header ? ? ?//entity-header的格式為name:valueCRLF,如果為空即只有CRLF
while?(entity-header not empty) ? //即,不是只有CRLF的空行
{
append entity-header to existing header fields
read entity-header
}
Content-Length:=length ? ? ?//將整個解碼流程結束后計算得到的新報文體length,作為Content-Length域的值寫入報文中
Remove "chunked" from Transfer-Encoding ?//同時從Transfer-Encoding中域值去除chunked這個標記
length最后的值實際為所有chunk的chunk-size之和,在上面的抓包實例中,一共有八塊chunk-size為0x1ffc(8188)的chunk,剩下一塊為0x1ea9(7849),加起來一共73353字節。
??????注:對于上面例子中前幾個chunk的大小都是8188,可能是因為:"1ffc" 4字節,""r"n"2字節,加上塊尾一個""r"n"2字節一共8字節,因此一個chunk整體為8196,正好可能是發送端一次TCP發送的緩存大小。
最后提供一段PHP版本的chunked解碼代碼:
$chunk_size?= (integer)hexdec(fgets(?$socket_fd, 4096 ) );
while(!feof($socket_fd) &&?$chunk_size?> 0)
{
$bodyContent?.=?fread(?$socket_fd,?$chunk_size?);
fread(?$socket_fd, 2 );?// skip /r/n
??? $chunk_size?= (integer)hexdec(fgets(?$socket_fd, 4096 ) );
}
?
?
?
其C語言的解碼如下,java思路相同
int nBytes;
char* pStart = a;????// a中存放待解碼的數據
char* pTemp;
char strlength[10];???//一個chunk塊的長度
chunk??: pTemp =strstr(pStart,"/r/n");
?????????????if(NULL==pTemp)
?????????????{
??????????????????????free(a);
?????????????????a=NULL;
?????????????????????fclose(fp);
?????????????????????return -1;
?????????????}
?????????????length=pTemp-pStart;
?????????????COPY_STRING(strlength,pStart,length);
?????????????pStart=pTemp+2;
?????????????nBytes=Hex2Int(strlength); //得到一個塊的長度,并轉化為十進制
??????????????????????????????
?????????????if(nBytes==0)//如果長度為0表明為最后一個chunk
????????????{
????????????????free(a);
???????????????????????fclose(fp);
???????????????????????return 0;
???????????????}
???????????????fwrite(pStart,sizeof(char),nBytes,fp);//將nBytes長度的數據寫入文件中
???????????????pStart=pStart+nBytes+2; //跳過一個塊的數據以及數據之后兩個字節的結束符
???????????????fflush(fp);
???????????????goto chunk; //goto到chunk繼續處理
??
?
如何將一個十進制數轉化為十六進制
char *buf = (char *)malloc(100);
char *d = buf;
int shift = 0;
unsigned long copy = 123445677;
while (copy) {
?????????copy >>= 4;
?????????shift++;
}//首先計算轉化為十六進制后的位數
if (shift == 0)
?????????shift++;
shift <<= 2;?//將位數乘于4,如果有兩位的話?shift為8
while (shift > 0) {
?????????shift -= 4;
?????????*(buf) = hex_chars[(123445677 >> shift) & 0x0F];
??????????buf++;
}
*buf = '/0';
? 原文鏈接:http://blog.csdn.net/zhangboyj/article/details/6236780
? 參考:http://bbs.csdn.net/topics/390333793
轉載于:https://www.cnblogs.com/12taotie21/p/3916980.html
總結
以上是生活随笔為你收集整理的HTTP1.1中CHUNKED编码解析(转载)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: oracle-扫盲贴:存储过程实现增删改
- 下一篇: UE4像素流送(Pixel Stream