日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

广告深度学习计算:异构硬件加速实践

發(fā)布時(shí)間:2023/12/15 pytorch 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 广告深度学习计算:异构硬件加速实践 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄:

- 前沿

1. 算力需求與供給

1.1 算力需求:模型復(fù)雜度

1.2 算力供給:異構(gòu)硬件計(jì)算能力

1.3 問(wèn)題與優(yōu)化方法

2. 算法-系統(tǒng)-硬件協(xié)同性能優(yōu)化

2.1 算法優(yōu)化

2.2 系統(tǒng)優(yōu)化:以GPU優(yōu)化為例

2.3 硬件升級(jí):以含光NPU為例

2.4 性能結(jié)果

-?總結(jié)與展望

???前言

在全球數(shù)字化時(shí)代,數(shù)字廣告產(chǎn)業(yè)舉足輕重,數(shù)字廣告占廣告整體支出的比重逐年上升,2019年數(shù)字廣告支出首次超過(guò)傳統(tǒng)廣告;全球數(shù)字廣告市場(chǎng)規(guī)模超過(guò)3000億美元[1],中國(guó)數(shù)字廣告市場(chǎng)規(guī)模超過(guò)700億美元[2]。對(duì)于國(guó)內(nèi)外頭部互聯(lián)網(wǎng)公司,數(shù)字廣告收入在整體營(yíng)收中均占很大比重。與傳統(tǒng)廣告不同,數(shù)字廣告的收入與點(diǎn)擊率和轉(zhuǎn)化率等投放效果指標(biāo)直接相關(guān),因此基于深度學(xué)習(xí)的廣告精準(zhǔn)投放是一個(gè)價(jià)值很高的問(wèn)題。

??1. 算力需求與供給

1.1 算力需求:模型復(fù)雜度

為滿足在線服務(wù)的延時(shí)約束,深度學(xué)習(xí)計(jì)算一般需要CPU與GPU/NPU等加速器的協(xié)同計(jì)算,以CPU-GPU單機(jī)系統(tǒng)為例(如圖1.1),服務(wù)能力(QPS)可以簡(jiǎn)單表示為如下公式:

其中,QPS由請(qǐng)求并行度(parallelism)和延時(shí)(latency)共同決定,α1和α2表示并發(fā)效率,最優(yōu)時(shí)多并發(fā)與單并發(fā)延時(shí)相同,最差時(shí)多并發(fā)等同于串行計(jì)算;對(duì)于每個(gè)請(qǐng)求而言,延時(shí)為CPU和GPU計(jì)算時(shí)間的總和。

圖1.1 CPU-GPU單機(jī)系統(tǒng)[3]

結(jié)合上述公式,我們對(duì)廣告深度學(xué)習(xí)在線服務(wù)做兩點(diǎn)說(shuō)明:

(1) 在線系統(tǒng)的優(yōu)化目標(biāo)是 latency-bounded QPS。 如圖1.2,請(qǐng)求并行執(zhí)行(parallelism > 1)在一般情況下(cache等共享資源競(jìng)爭(zhēng)不太激烈時(shí))能有效提高資源利用率(例如CPU和GPU利用率),但并行執(zhí)行時(shí)每個(gè)請(qǐng)求的延時(shí)也將上漲。由于在線系統(tǒng)有比較嚴(yán)格的延時(shí)限制,因此服務(wù)能力不能通過(guò)資源利用率簡(jiǎn)單換算,需要在延時(shí)約束下進(jìn)行評(píng)估。當(dāng)系統(tǒng)各種資源利用率均較低,延時(shí)是制約因素時(shí),優(yōu)化或適當(dāng)放寬延時(shí)可以有效提升系統(tǒng)服務(wù)能力。

圖1.2 多并發(fā)延時(shí)和資源利用率

(2) 模型復(fù)雜度由計(jì)算量和計(jì)算密度共同決定。 CPU/GPU的計(jì)算時(shí)間主要由數(shù)據(jù)移動(dòng)效率(包括CPU/GPU內(nèi)存讀寫(xiě)、PCIe數(shù)據(jù)傳輸、GPU kernel launch)和計(jì)算效率(CPU/GPU各種計(jì)算單元的速度)決定。需要注意的是,FLOPs是最經(jīng)常被用作評(píng)估模型復(fù)雜度的指標(biāo),但FLOPs僅直接影響compute_cycles;即使是compute_cycles,FLOPs一般也只能用于評(píng)估MatMul/Conv等計(jì)算密集型算子的復(fù)雜度,對(duì)于訪存密集型算子沒(méi)有指導(dǎo)意義。因此,FLOPs只是眾多計(jì)算復(fù)雜度指標(biāo)之一,不能直接換算服務(wù)能力。

對(duì)于GPU等加速器,計(jì)算密集型算子的性能(例如每秒浮點(diǎn)計(jì)算次數(shù),FLOPS)增長(zhǎng)很快,這使得另一個(gè)方面的性能優(yōu)化越來(lái)越重要:提升計(jì)算密度,即在模型FLOPs相當(dāng)?shù)那闆r下減少訪存量,減少kernel個(gè)數(shù),提高FLOPs/byte或FLOPs/kernel_launch。例如:盡量減少使用tensor變換算子(Concat/Split/Transpose等算子)、減少Tile/Gather等算子導(dǎo)致的中間結(jié)果內(nèi)存讀寫(xiě)膨脹、盡量增大每次請(qǐng)求的batch size等。

1.2 算力供給:異構(gòu)硬件計(jì)算能力

在計(jì)算需求增長(zhǎng)的同時(shí),芯片制造工藝和計(jì)算機(jī)體系結(jié)構(gòu)推動(dòng)計(jì)算機(jī)硬件(處理器、內(nèi)存和外存系統(tǒng)、網(wǎng)絡(luò)互聯(lián)設(shè)備)不斷推陳出新[3]。這里僅簡(jiǎn)述與深度學(xué)習(xí)計(jì)算最直接相關(guān)的處理器和內(nèi)存系統(tǒng)的近期發(fā)展趨勢(shì),主要體現(xiàn)為三個(gè)方面:

(1) 處理器專用化和異構(gòu)化成為趨勢(shì)。 近年來(lái)CPU性能提升速度無(wú)法匹配應(yīng)用日益增長(zhǎng)的計(jì)算需求。為大幅提升典型應(yīng)用的性能和效率(性價(jià)比、能效比等),處理器向?qū)S没较虬l(fā)展(例如針對(duì)深度學(xué)習(xí)的專用處理器)。伴隨著處理器專用化的趨勢(shì),計(jì)算機(jī)系統(tǒng)中集成的處理器類型日漸豐富,形成異構(gòu)處理器計(jì)算機(jī)系統(tǒng)。以阿里媽媽廣告系統(tǒng)為例,為滿足不同應(yīng)用和場(chǎng)景的需求,CPU、GPU和ASIC均有不同程度的使用。

(2) 體系結(jié)構(gòu)創(chuàng)新推動(dòng)數(shù)值計(jì)算性能快速提升。 處理器數(shù)值計(jì)算性能提升主要源自兩方面:芯片制造工藝的持續(xù)進(jìn)步,芯片內(nèi)晶體管數(shù)目逐步增長(zhǎng);體系結(jié)構(gòu)設(shè)計(jì)根據(jù)應(yīng)用需求優(yōu)化晶體管使用,例如為典型應(yīng)用/算法增加專門(mén)處理單元(例如深度學(xué)習(xí)專用處理器,以及針對(duì)深度學(xué)習(xí)中常見(jiàn)GEMM運(yùn)算,NVIDIA GPU中增加的TensorCore、Intel CPU中增加的AVX512/AMX)。其中,后者對(duì)數(shù)值計(jì)算性能的提升尤為顯著,例如TensorCore單元大幅提高NVIDIA GPU的計(jì)算能力(圖1.3)。

圖1.3 NVIDIA Tesla GPU浮點(diǎn)/整數(shù)計(jì)算性能

(3) 數(shù)據(jù)訪問(wèn)帶寬決定計(jì)算性能的發(fā)揮。 內(nèi)存數(shù)據(jù)讀寫(xiě)的速度無(wú)法匹配處理器的計(jì)算速度限制了應(yīng)用性能的提升(memory wall),為緩解這個(gè)問(wèn)題目前主要有兩種思路:在處理器內(nèi)部集成更大規(guī)模的SRAM,減少對(duì)速度相對(duì)較慢的DRAM的訪問(wèn),這在深度學(xué)習(xí)專用處理器中廣泛應(yīng)用;通過(guò)2.5D/3D封裝技術(shù)提升DRAM帶寬,例如高帶寬存儲(chǔ)器 (HBM)和混合存儲(chǔ)立方體 (HMC),前者在AMD/NVIDIA高端GPU中已有集成。阿里媽媽深度學(xué)習(xí)計(jì)算采用多種異構(gòu)硬件,這些硬件之間的數(shù)據(jù)訪問(wèn)帶寬差異較大:阿里巴巴自研的AI芯片含光800 NPU集成較大的SRAM,NVIDIA P100/V100S GPU集成HBM/HBM2,數(shù)據(jù)訪問(wèn)瓶頸相對(duì)較小;Intel Skylake/Cacade Lake CPU和NVIDIA T4 GPU的SRAM空間和DRAM帶寬相對(duì)較小,數(shù)據(jù)訪問(wèn)瓶頸較大。除內(nèi)存數(shù)據(jù)訪問(wèn)外,對(duì)于協(xié)處理器,跨設(shè)備的輸入輸出和計(jì)算指令等數(shù)據(jù)傳輸也影響計(jì)算性能發(fā)揮,例如GPU計(jì)算中CPU-GPU數(shù)據(jù)傳輸、GPU kernel launch的速度。

表1.1概述了目前阿里媽媽主力深度學(xué)習(xí)硬件的計(jì)算能力,包括數(shù)值計(jì)算性能(FLOPS/OPS)、DRAM帶寬、PCIe帶寬、kernel launch throughput。由于硬件本身的差異,不同硬件的性能瓶頸可能不同(表1中粗體數(shù)字表示在實(shí)際應(yīng)用中已經(jīng)/在短期內(nèi)可能成為瓶頸)。其中,kernel launch throughput通過(guò)多線程反復(fù)啟動(dòng)空kernel得到,由于軟件約束在某些版本docker中P100 GPU無(wú)法使用MPS;NPU使用PCIe Gen 4.0,但受限于CPU型號(hào)Intel Cascade Lake 8269CY (僅支持PCIe3.0),帶寬僅為32GB/s;GPU DRAM帶寬通過(guò)在kernel中僅進(jìn)行不同模式的數(shù)據(jù)訪問(wèn)得到;CPU為two-sockets,DRAM理論帶寬為每個(gè)socket帶寬*2簡(jiǎn)單估計(jì)得到,實(shí)測(cè)帶寬為線上系統(tǒng)關(guān)閉NUMA測(cè)試結(jié)果;GPU實(shí)測(cè)FLOPS為GEMM結(jié)果;CPU FP32 FLOPS為cores * AVX512 * 2 AVX512 units/core * 1.6GHz下估算結(jié)果。

表1.1 典型深度學(xué)習(xí)硬件計(jì)算能力

1.3 問(wèn)題與優(yōu)化方法

為實(shí)現(xiàn)更精準(zhǔn)的投放,廣告的計(jì)算需求在日益增長(zhǎng)。以阿里媽媽信息流廣告排序模型為例:在DIEN (Deep Interest Evolution Network) [4] 基礎(chǔ)上引入基于搜索范式的超長(zhǎng)用戶行為建模新方法,升級(jí)為SIM (Search-based user Interest Model) [5];在SIM基礎(chǔ)上引入交叉特征相關(guān)內(nèi)容,升級(jí)為CAN (Co-Action Network) [6]。從DIEN到CAN模型,FLOPS增加3x,訪存增加3x,輸入規(guī)模增加4x(以上為粗略估計(jì),具體增長(zhǎng)與業(yè)務(wù)場(chǎng)景有關(guān))。面對(duì)迅速增長(zhǎng)的算力需求,我們打造了新一代廣告深度學(xué)習(xí)計(jì)算引擎XDL-Blaze,算法-系統(tǒng)-硬件密切配合,充分利用硬件能力,掩蓋硬件自身的弱點(diǎn),實(shí)現(xiàn)性能目標(biāo)(latency-bounded QPS)的最大化。

??2. 算法-系統(tǒng)-硬件協(xié)同性能優(yōu)化

2.1 算法優(yōu)化

我們?cè)趶V告場(chǎng)景中的算法優(yōu)化實(shí)踐大致分為三個(gè)方向:(1)模型裁剪,裁剪無(wú)用和低貢獻(xiàn)結(jié)構(gòu);(2)近似計(jì)算,用近似且輕量的計(jì)算結(jié)構(gòu)替換耗時(shí)的計(jì)算結(jié)構(gòu);(3)計(jì)算壓縮,根據(jù)數(shù)據(jù)特點(diǎn),壓縮重復(fù)計(jì)算。

以算法與工程配合最緊密的計(jì)算壓縮為例,廣告精排模型在訓(xùn)練和推理時(shí)輸入數(shù)據(jù)各有特點(diǎn),訓(xùn)練時(shí)由于數(shù)據(jù)壓縮比非常低,所有的輸入特征都是展開(kāi)的;而推理時(shí)壓縮比就相當(dāng)可觀了,如果對(duì)重復(fù)數(shù)據(jù)進(jìn)行壓縮,就可以大幅降低PCIe拷貝量、計(jì)算量和訪存量。

如圖2.1,模型中存在三種計(jì)算壓縮:

(1)推理時(shí)每個(gè)batch只包含一個(gè)user,因此可以將user類的特征從候選廣告的batch size壓縮為1,利用TensorFlow算子的broadcast語(yǔ)義完成計(jì)算后,在最后進(jìn)入全連接前Tile到ad batch size;

(2)用戶長(zhǎng)歷史類目與候選廣告的類目一一對(duì)應(yīng),候選廣告中有多個(gè)商品的類目是相同的,因此可以將長(zhǎng)歷史類目特征壓縮到總類目數(shù),然后構(gòu)造對(duì)應(yīng)的indicator,通過(guò)Gather擴(kuò)展到ad batch size;

(3)每條候選廣告對(duì)應(yīng)多個(gè)創(chuàng)意,每條創(chuàng)意都是一條待打分的廣告,多條創(chuàng)意中廣告部分特征是相同的,只有創(chuàng)意相關(guān)的少量特征不同,因此可以將創(chuàng)意壓縮到廣告batch size,然后構(gòu)造創(chuàng)意的indicator,通過(guò)gather擴(kuò)展到創(chuàng)意batch size。

圖2.1 推理計(jì)算壓縮

user類特征和歷史行為類別特征擴(kuò)展到ad維度,再擴(kuò)展到創(chuàng)意維度的映射關(guān)系如圖2.2所示,多級(jí)的壓縮從多個(gè)維度降低了推理模型的計(jì)算復(fù)雜度,降低模型latency,提高吞吐量。

圖2.2 數(shù)據(jù)展開(kāi)映射關(guān)系

我們可以根據(jù)數(shù)據(jù)特點(diǎn)對(duì)推理的計(jì)算圖進(jìn)行優(yōu)化,盡量將數(shù)據(jù)展開(kāi)操作延后,計(jì)算壓縮使每次請(qǐng)求的FLOPS、訪存、輸入規(guī)模均大幅下降,QPS @ T4提升3x。

2.2 系統(tǒng)優(yōu)化:以GPU優(yōu)化為例

從1.1節(jié)QPS和latency公式可以看到,GPU執(zhí)行時(shí)間由計(jì)算效率(計(jì)算密集型算子、訪存密集型算子效率)、kernel launch和PCIe拷貝決定,我們的優(yōu)化也針對(duì)這幾個(gè)方面展開(kāi)。

2.2.1 計(jì)算密集型算子優(yōu)化

廣告場(chǎng)景中GEMM是最重要的計(jì)算密集型算子,對(duì)于常見(jiàn)的GEMM規(guī)模,cuBLAS一般情況下能提供性能較優(yōu)的實(shí)現(xiàn),但是在工程中遇到一些特殊規(guī)模的 GEMM,cuBLAS提供的性能不盡人意。例如在相同的 FLOPS 下,M 與 K、N 相差較大的長(zhǎng)條型 GEMM 與勻稱型GEMM相比,cuBLAS GEMM 計(jì)算時(shí)間增加了3倍。對(duì)于廣告模型中常見(jiàn)的長(zhǎng)條形 GEMM 規(guī)模,我們用 TVM 自動(dòng)生成更優(yōu)的 kernel,與 cuBLAS 庫(kù)函數(shù)相比有 7x 以上的加速比。

此外,我們針對(duì)廣告模型在 GPU FP32+FP16 混合精度上做了一些工作,包括精度評(píng)估和使用 TensorCore 加速 GEMM,并且在 FP32 和 FP16 之間精度轉(zhuǎn)換的開(kāi)銷上做了一些優(yōu)化。由于 GEMM 計(jì)算效率的提升以及 FP16 帶來(lái)的訪存減少,FP32+FP16 混合精度取得了 1.3-2x 的加速比。

2.2.2 OP/Kernel Fusion

對(duì)于廣告模型推理場(chǎng)景而言,GPU計(jì)算密集型算子的性能增長(zhǎng)很快,這就需要有足夠的數(shù)據(jù)喂給GPU計(jì)算單元,但大多的情況下,訪存和 kernel launch 更容易先到達(dá)瓶頸。為了降低訪存和 kernel launch 開(kāi)銷,我們做了大量代碼生成方面的工作,主要有兩個(gè)方面:基于 XLA/MLIR 等編譯器進(jìn)行 Kernel fusion 和針對(duì)訪存熱點(diǎn)的pattern fusion。代碼生成優(yōu)化在降低訪存開(kāi)銷的同時(shí),也會(huì)大幅減少kernel個(gè)數(shù),因此kernel launch開(kāi)銷也會(huì)降低。

在定向廣告場(chǎng)景中我們的自動(dòng)Kernel fusion工作主要在TensorFlow XLA層面展開(kāi),包括兩個(gè)方面工作。一方面是編譯策略優(yōu)化,針對(duì)業(yè)務(wù)場(chǎng)景中XLA生成的指令執(zhí)行效率比較低的策略進(jìn)行調(diào)優(yōu)。另一方面是解決XLA不支持dynamic shape的問(wèn)題,一種解決方法是分桶warmup:將輸入規(guī)模歸類劃分,padding到多個(gè)固定shape ;另一種解決方法是AutoPadding:在XLA cluster前后自動(dòng)插入padding/unpadding OP,自適應(yīng)的調(diào)配桶大小。

通過(guò)深入分析廣告模型中訪存熱點(diǎn),有些情況無(wú)法通過(guò)編譯優(yōu)化自動(dòng)融合。針對(duì)這個(gè)情況我們實(shí)現(xiàn)了更加高效的算子融合來(lái)優(yōu)化訪存熱點(diǎn),下面以Gather和BatchMatMul融合為例說(shuō)明。我們?cè)赟IM模型的工程實(shí)踐中,發(fā)現(xiàn)一個(gè)典型的訪存熱點(diǎn):Gather+BatchedMatmul,Gather和BatchedMatmul之間存在大量的global memory讀寫(xiě)操作,如圖2.3所示。其中,Gather和BatchedMatmul的memory讀寫(xiě)規(guī)模總共為12.4MB;SIM模型中有6個(gè)相同的結(jié)構(gòu),這些memory訪問(wèn)顯著增加了訪存壓力,例如當(dāng)QPS=1000時(shí),總共消耗約74.4GB/s的訪存帶寬。

圖2.3 Gather+BatchedMatmul優(yōu)化

為降低帶寬壓力,我們通過(guò)kernel fusion將Gather + BatchedMatmul合并成一個(gè)自定義OP(IndicatorMatMul),減少96%的global memory讀寫(xiě)。IndicatorMatMul的語(yǔ)義如下:Gather操作在這里的本質(zhì)含義,實(shí)際上是將BatchedMatmul左邊a矩陣的batch維度batch_a升到跟右邊b矩陣batch_b對(duì)齊,進(jìn)行batch_b個(gè)MatMul計(jì)算;cuBLAS的gemmBatched函數(shù),可以輸入一組a矩陣的指針和b矩陣指針,因此我們將Gather(a)簡(jiǎn)化為指針計(jì)算,將計(jì)算好的指針直接送往gemmBatched函數(shù),完成Gather + BatchedMatmul的計(jì)算。這個(gè)優(yōu)化可以大幅提升latency-bounded QPS(例如,使SIM模型10ms latency約束下的QPS提升2.6x)。

2.2.3 調(diào)度和開(kāi)銷優(yōu)化

性能優(yōu)化是個(gè)復(fù)雜的系統(tǒng)工程,計(jì)算優(yōu)化只是其中的一部分。除計(jì)算優(yōu)化外,還需要實(shí)現(xiàn)各種硬件高效協(xié)同,以充分壓榨硬件潛力,在有限的預(yù)算下保證服務(wù)質(zhì)量。系統(tǒng)層面上,我們一方面降低系統(tǒng)各部分開(kāi)銷,比如優(yōu)化TensorFlow圖執(zhí)行器 (executor)的線程調(diào)度,避免線程上下文頻繁切換,從而降低高負(fù)載壓力下的長(zhǎng)尾延時(shí);另一方面提高異構(gòu)加速器的并發(fā)度,從而提高資源利用率,下面從這個(gè)角度展開(kāi)說(shuō)明。

與面向大batch的訓(xùn)練任務(wù)不同,在線預(yù)估服務(wù)中計(jì)算一般有兩個(gè)特點(diǎn):單次請(qǐng)求的batchsize小,單個(gè)服務(wù)的并發(fā)規(guī)模大。這導(dǎo)致GPU kernel執(zhí)行時(shí)間一般較短,無(wú)法充分掩蓋kernel launch開(kāi)銷,因此需要優(yōu)化kernel launch效率。針對(duì)這個(gè)問(wèn)題,我們進(jìn)行了兩個(gè)優(yōu)化:多stream并發(fā)launch kernel,實(shí)現(xiàn)stream間相互overlap;使用多CUDA context降低kernel launch的互斥鎖開(kāi)銷。

Multi-streams:在線預(yù)估場(chǎng)景中,可以通過(guò)同時(shí)提供多個(gè)模型服務(wù),每個(gè)模型同時(shí)處理多個(gè)打分請(qǐng)求,提高資源利用率(尤其是GPU 利用率)。目前,在線預(yù)估服務(wù)通過(guò)在單個(gè)進(jìn)程內(nèi)啟動(dòng)多個(gè)CPU線程實(shí)現(xiàn)上述并行執(zhí)行。但是,在單進(jìn)程模式下,我們發(fā)現(xiàn)使用TensorFlow默認(rèn)執(zhí)行選項(xiàng)時(shí),提高并行度并不能顯著提升throughput,且CPU和GPU利用率均不高。其原因是:TensorFlow默認(rèn)不會(huì)開(kāi)啟GPU多stream,造成所有并行請(qǐng)求在GPU上均使用單個(gè)stream串行執(zhí)行。另外,TensorFlow多stream的實(shí)現(xiàn)也不適合在線預(yù)估場(chǎng)景:TensorFlow在stream assignment時(shí),目標(biāo)是利用多stream實(shí)現(xiàn)單個(gè)計(jì)算圖內(nèi)inter-op的并行,縮短單個(gè)計(jì)算圖的執(zhí)行時(shí)間;這種stream assignment策略導(dǎo)致低效的stream同步,在大多數(shù)場(chǎng)景下多stream不能帶來(lái)性能提升。

為解決這個(gè)問(wèn)題,分析發(fā)現(xiàn):(1) TensorFlow中stream與GPU device一一對(duì)應(yīng);(2) TensorFlow提供virtual_device選項(xiàng)將一個(gè)physical GPU劃分成為多個(gè)虛擬GPU,每個(gè)虛擬GPU有獨(dú)立的stream。因此,我們開(kāi)啟TensorFlow virtual_devices選項(xiàng),允許并行的打分請(qǐng)求在不同的virtual GPU和stream上并行執(zhí)行。注意,更高的并行度需要消耗的更多的GPU device memory(包括存儲(chǔ)權(quán)值和臨時(shí)數(shù)據(jù)的空間消耗);但是device memory空間有限(一般小于16GB),導(dǎo)致在一些場(chǎng)景中device memory成為系統(tǒng)瓶頸。后續(xù)需要針對(duì)這個(gè)問(wèn)題重點(diǎn)優(yōu)化。

Multi-contexts:分析廣告應(yīng)用在GPU上的性能時(shí)發(fā)現(xiàn):多線程并發(fā)launch kernel時(shí),幾乎每一次kernel launch均有一次開(kāi)銷較大的獲取鎖的函數(shù)調(diào)用(pthread_mutex_lock),極大影響了kernel launch的效率(圖2.4)。

圖2.4 CUDA runtime/driver mutex開(kāi)銷

與廠商確認(rèn)上述mutex與CUDA runtime/driver中context [7]相關(guān),mutex與context一一對(duì)應(yīng),因此我們嘗試通過(guò)增加context數(shù)目減少mutex競(jìng)爭(zhēng)。我們進(jìn)行了幾組測(cè)試(圖2.5),在不同contexts數(shù)目的情況下,用CPU多線程啟動(dòng)空GPU kernels(不計(jì)算直接返回)得到理想情況下的GPU kernel launch throughput。測(cè)試結(jié)果顯示:多contexts可以改善kernel launch throughput,P100、V100S、T4上改善程度遞增。基于上述測(cè)試,我們修改TensorFlow框架,將每個(gè)物理GPU對(duì)應(yīng)一個(gè)default context修改為多個(gè)contexts,并發(fā)任務(wù)使用不同的context進(jìn)行kernel launch從而降低開(kāi)銷。注意這里有兩個(gè)限制:在目前CUDA runtime/driver的實(shí)現(xiàn)中,GPU不能在不同contexts的并發(fā)GPU kernel之間spatial sharing(即使單個(gè)kernel無(wú)法充分利用所有GPU streaming multiprocessor),需要啟用CUDA MPS (Multi-Process Service)避免這個(gè)限制;目前我們的服務(wù)均運(yùn)行在docker中,P100不支持在某些docker版本中開(kāi)啟MPS。

圖2.5 CUDA runtime/driver mutex開(kāi)銷

2.2.4 PCIe拷貝優(yōu)化

廣告模型有數(shù)百個(gè)embedding特征輸入需要從CPU host memory經(jīng)過(guò)PCIe拷貝到GPU device memory,PCIe每次數(shù)據(jù)傳輸均會(huì)帶來(lái)額外的開(kāi)銷。我們通過(guò)合并瑣碎數(shù)據(jù)減少拷貝次數(shù),PCIe數(shù)據(jù)傳輸耗時(shí)從4.5ms降低到400us。

2.3 硬件升級(jí):以含光NPU為例

我們?cè)趶V告場(chǎng)景部署阿里自研AI芯片含光800 NPU。由于其專用低精度計(jì)算邏輯,NPU在部分深度學(xué)習(xí)應(yīng)用上的性能大幅優(yōu)于CPU/GPU。但是NPU也存在一些短板:對(duì)主流深度學(xué)習(xí)OP的支持程度弱于CPU/GPU,不利于模型快速迭代,不支持的OP回退到CPU上執(zhí)行導(dǎo)致額外的數(shù)據(jù)轉(zhuǎn)換和傳輸開(kāi)銷;矩陣乘僅支持INT16/INT8低精度運(yùn)算(模型在部署前需要進(jìn)行量化),INT16/INT8計(jì)算與FP32計(jì)算結(jié)果存在一定偏差,對(duì)一些累積誤差較大的結(jié)構(gòu)不適用,部署難度大于CPU/GPU。

為了發(fā)揮NPU的算力優(yōu)勢(shì)、規(guī)避短板,場(chǎng)景和模型的選擇非常關(guān)鍵。我們選取粗排模型DQM作為第一個(gè)適配場(chǎng)景:這個(gè)場(chǎng)景候選廣告數(shù)多,一次用戶請(qǐng)求需要對(duì)幾千到上萬(wàn)個(gè)廣告的CTR進(jìn)行預(yù)估,算力消耗占到整個(gè)廣告系統(tǒng)算力消耗的一半以上;模型主要結(jié)構(gòu)是全連接,GEMM計(jì)算占很大比重,適合使用NPU專用計(jì)算邏輯,且算子大多能被NPU原生支持,少數(shù)特殊OP也能通過(guò)簡(jiǎn)單變換得以支持。

為了適配NPU量化計(jì)算模式,需要引入量化流程。量化最簡(jiǎn)單的做法就是在模型設(shè)計(jì)/訓(xùn)練階段固定tensor數(shù)值范圍,從而省去通過(guò)calibration收集tensor數(shù)值范圍的過(guò)程。但是目前廣告模型在設(shè)計(jì)時(shí)沒(méi)有考慮這點(diǎn),因此我們通過(guò)若干在線樣本回流到模型量化流程,收集tensor數(shù)值范圍,計(jì)算量化參數(shù)。在具體實(shí)踐中我們發(fā)現(xiàn)對(duì)于粗排模型量化參數(shù)非常穩(wěn)定,一次calibration的結(jié)果可以復(fù)用到之后的模型量化。實(shí)測(cè)DQM模型INT16量化與FP32的誤差分布如下(圖2.6)。

圖2.6 DQM INT16量化與FP32精度對(duì)比(1000條樣本)

精度對(duì)比測(cè)試發(fā)現(xiàn),NPU量化前后99%的數(shù)值結(jié)果相對(duì)誤差可以控制在1%以內(nèi),對(duì)廣告點(diǎn)擊率預(yù)估(粗排)的相對(duì)序的影響可以忽略,從業(yè)務(wù)效果上看量化前后的效果持平。

值得注意的是,在真實(shí)線上環(huán)境中NPU的算力并沒(méi)有得到充分發(fā)揮(僅使用了4個(gè)NPU cores中的1個(gè),能力發(fā)揮不到25%),其原因在于:embedding計(jì)算和NPU輸入量化均由CPU完成,隨QPS升高CPU利用率先到達(dá)瓶頸(約60%);在embedding規(guī)模較小的場(chǎng)景,CPU與NPU之間的PCIe帶寬先成為瓶頸。這個(gè)現(xiàn)象不僅出現(xiàn)在NPU上,隨著協(xié)處理器算力增強(qiáng),這個(gè)問(wèn)題將更加普遍。因此,我們后面的優(yōu)化需要超越模型計(jì)算,在整個(gè)廣告系統(tǒng)層面進(jìn)行feature-embedding-dense計(jì)算的全局優(yōu)化;另外,與模型計(jì)算專用硬件加速類似,也可以考慮針對(duì)embedding等短板選擇/實(shí)現(xiàn)更優(yōu)的硬件。

2.4 性能結(jié)果

圖2.7展示了XDL-Blaze對(duì)定向主要模型在線上典型batchsize下的性能優(yōu)化效果。對(duì)比不同的硬件:(1)對(duì)僅有簡(jiǎn)單FC結(jié)構(gòu)的DQM模型,NPU與T4/V100S相比有很大的性能優(yōu)勢(shì)(約兩倍);(2)由于GPU硬件的升級(jí),在SIM和CAN上,P100、T4、V100S的性能遞增。對(duì)比不同的優(yōu)化實(shí)現(xiàn):(1)計(jì)算優(yōu)化(子圖合并、OP替換等與TensorFlow框架無(wú)關(guān)的圖等價(jià)變換)對(duì)SIM和CAN可以帶來(lái)4-5X的加速比,DQM因?yàn)槠鋱D結(jié)構(gòu)相對(duì)簡(jiǎn)單(只有FC結(jié)構(gòu))收益不大;(2)除DQM@P100以外,基于定制/自動(dòng)編譯優(yōu)化和系統(tǒng)優(yōu)化,XDL-Blaze與社區(qū)原生TF1.15+XLA相比,均有2X以上的加速比。

圖2.7 DQM/SIM/CAN性能優(yōu)化效果

為了給后續(xù)性能優(yōu)化或硬件選型/設(shè)計(jì)提供依據(jù),我們整理了不同模型對(duì)不同硬件的使用情況。圖2.8展示了DQM、SIM和CAN在不同batchsize下對(duì)GPU主要硬件資源的利用率(實(shí)際使用量/achievable峰值能力,achievable峰值數(shù)據(jù)見(jiàn)表1.1)。可以很清楚的看出:在batchsize較小時(shí),P100、V100S、T4存在不同程度的kernel launch瓶頸,其中P100的瓶頸更大;T4則經(jīng)常遇到GPU顯存帶寬的瓶頸;三者橫向比較,V100S除FLOPS稍顯過(guò)剩外,整體表現(xiàn)相對(duì)更均衡。另外,在V100S上增大batchsize可以在一定程度上緩解kernel launch瓶頸,提高整體硬件利用效率。DQM在NPU上的性能瓶頸相對(duì)簡(jiǎn)單,主要是CPU利用率和PCIe帶寬,不在這里詳細(xì)列出。

圖2.8 DQM/SIM/CAN硬件利用效率

??總結(jié)與展望

持續(xù)的算法創(chuàng)新和業(yè)務(wù)升級(jí)給廣告營(yíng)收帶來(lái)大幅增長(zhǎng)的同時(shí),也給系統(tǒng)能力帶來(lái)了巨大的挑戰(zhàn),其中以對(duì)深度學(xué)習(xí)引擎計(jì)算能力的挑戰(zhàn)為甚。針對(duì)這個(gè)問(wèn)題,我們打造了新一代廣告深度學(xué)習(xí)計(jì)算引擎XDL-Blaze,以充分釋放數(shù)十萬(wàn)CPU處理器核和數(shù)千張GPU/NPU加速卡的計(jì)算能力,服務(wù)數(shù)百萬(wàn)峰值QPS。未來(lái)我們要持續(xù)通過(guò)軟硬件協(xié)同優(yōu)化挖掘硬件潛力,例如:針對(duì)計(jì)算密集型算子嘗試INT8/BFLOAT16/TF32/Sparse等低精度/近似計(jì)算;針對(duì)訪存密集型算子實(shí)現(xiàn)更激進(jìn)的kernel fusion。此外,我們需要將廣告典型深度學(xué)習(xí)模型總結(jié)為完善的benchmark集合,以全面評(píng)估CPU/GPU/NPU等深度學(xué)習(xí)處理器、以及多種處理器的組合方式,為硬件選型提供科學(xué)指導(dǎo)。

[1] Global Digital Ad Spending Update Q2 2020, https://www.emarketer.com/content/global-digital-ad-spending-update-q2-2020

[2] China Digital Ad Spending Update Q2 2020, https://www.emarketer.com/content/china-digital-ad-spending-update-q2-2020

[3] CUDA toolkit Documentation, https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html

[4] Zhou, Guorui, et al. "Deep interest evolution network for click-through rate prediction." Proceedings of the AAAI conference on artificial intelligence. Vol. 33. 2019.

[5] Qi, Pi, et al. "Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction." arXiv preprint arXiv:2006.05639 (2020).

[6] Zhou, Guorui, et al. CAN: Revisiting Feature Co-Action for Click-Through Rate Prediction, 2020. https://arxiv.org/abs/2011.05625

[7] CUDA Driver API, https://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__CTX.html#group__CUDA__CTX

END

招聘信息

我們是阿里媽媽工程平臺(tái)預(yù)測(cè)引擎團(tuán)隊(duì),歡迎感興趣同學(xué)加入我們~

點(diǎn)擊下方↓↓「閱讀原文」了解崗位詳情 😉

也許你還想看

廣告深度學(xué)習(xí)計(jì)算:召回算法和工程協(xié)同優(yōu)化的若干經(jīng)驗(yàn)

歡迎關(guān)注「阿里媽媽技術(shù)」,了解更多~

瘋狂暗示↓↓↓↓↓↓↓

總結(jié)

以上是生活随笔為你收集整理的广告深度学习计算:异构硬件加速实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

日韩免费电影网 | 成人小视频在线观看免费 | 国产综合91| 国产精品破处视频 | 久久久久久看片 | 国产精品高清一区二区三区 | 九九热在线精品视频 | 亚洲精品乱码久久久久 | 国产成人99久久亚洲综合精品 | 欧美精品中文在线免费观看 | 91在线播放视频 | 日韩精品免费在线观看 | 国产精品久久久久毛片大屁完整版 | 美女视频一区二区 | 中文字幕久久久精品 | 亚洲人片在线观看 | 国产精品99久久免费观看 | 午夜精品久久久久久久99水蜜桃 | 日日日干 | 激情五月婷婷综合 | 国产精在线| 日韩大片免费观看 | a√天堂中文在线 | 日韩久久视频 | 97精产国品一二三产区在线 | 国产高潮久久 | 国产精品乱码久久久久久1区2区 | 97精品视频在线播放 | 久久久久久免费毛片精品 | 亚洲免费视频观看 | 日韩欧美国产免费播放 | 欧美国产亚洲精品久久久8v | 中文在线a在线 | 久久综合综合久久综合 | h视频在线看 | 亚洲综合一区二区精品导航 | 在线视频 你懂得 | 国产亚洲人成网站在线观看 | 国产午夜激情视频 | 亚洲国产视频网站 | 国产精品a成v人在线播放 | 亚洲国产精品激情在线观看 | 亚洲成人黄色在线观看 | 成人av教育| 中文字幕一区二区在线观看 | 亚洲黄色影院 | 日韩在线观看a | 色欲综合视频天天天 | 国产在线色站 | 免费看黄在线 | 天天干天天摸天天操 | 亚洲精品456在线播放乱码 | 婷婷在线看 | 午夜av色| www.com久久久 | 精品一二三四在线 | 久久999精品| 国产97免费 | 欧美激情视频一区二区三区免费 | 国产一区二区视频在线播放 | 黄色成人影视 | 奇米影视777影音先锋 | 日韩在线免费观看视频 | 国产一卡久久电影永久 | 日日狠狠 | 久久字幕精品一区 | 欧美另类巨大 | 久久久精品国产一区二区电影四季 | 精品国产伦一区二区三区观看说明 | 亚州精品在线视频 | 少妇bbb| 中文字幕在线观看视频免费 | 六月色丁 | 久久久久久久久久久久久久电影 | 国产一卡二卡四卡国 | 色婷婷亚洲精品 | 久草.com| 久久久网页| 97碰碰碰| 99精品视频免费全部在线 | 日p在线观看 | 在线日本看片免费人成视久网 | 日日干天天操 | 亚洲欧美在线观看视频 | 天天天插 | 日韩免费观看一区二区 | 99久久夜色精品国产亚洲 | 菠萝菠萝蜜在线播放 | 精品日韩av | 99精品视频在线观看视频 | 色偷偷中文字幕 | 欧美日韩一级久久久久久免费看 | 免费网站黄 | 久久久久国产精品视频 | 特级xxxxx欧美 | 午夜 免费| 色在线亚洲| 久久国产精品免费一区 | 日韩国产精品久久 | 国产精品欧美一区二区三区不卡 | 色老板在线视频 | 欧美91精品久久久久国产性生爱 | av在线色| 欧美日韩国产一区二区在线观看 | 亚洲尺码电影av久久 | 黄网站app在线观看免费视频 | 亚洲乱码久久久 | 国产 精品 资源 | 美女精品在线观看 | 日本不卡一区二区 | 91亚州| 久草在线视频国产 | 国产一区二区久久久久 | 狠狠色丁香婷婷综合欧美 | 国产成人av电影在线观看 | 国产精品免费高清 | 在线成人小视频 | 五月激情综合婷婷 | 精品视频专区 | 日日夜夜精品 | 99九九热只有国产精品 | 黄色小网站在线 | 婷婷五月情 | 国产vs久久| 蜜桃视频日本 | 天天曰视频 | 精壮的侍卫呻吟h | 亚洲精品国产精品国自 | 在线精品视频免费播放 | 精品在线视频观看 | 狠狠的干狠狠的操 | 精品美女在线视频 | 精品一二三区 | 国内成人精品视频 | 玖玖爱国产在线 | 国产精品免费久久久久久久久久中文 | 国产精品片 | 夜色成人av | 国产精品成人一区 | 超级碰碰碰碰 | 欧美另类xxx | 中文字幕中文 | 亚洲精品视频大全 | 欧美日韩免费看 | 最新国产中文字幕 | 亚洲精品国产视频 | 午夜在线观看影院 | 日韩在线字幕 | 国产精品mv在线观看 | 亚洲精品视频在线观看免费视频 | 中文字幕中文字幕在线中文字幕三区 | 亚洲日本在线视频观看 | av九九九| 四虎www com | 日韩久久久久久久久久久久 | 免费看十八岁美女 | 欧美尹人| 在线看不卡av | 久久综合99| 日本在线观看一区二区三区 | 激情五月***国产精品 | 手机看片福利 | 日本公妇在线观看 | 国产黄网站在线观看 | www.婷婷色 | www色网站 | 中文字幕网站 | 四虎成人av | 久久婷亚洲五月一区天天躁 | 国产精品国产三级国产专区53 | 国产亚洲视频在线观看 | 国产成人性色生活片 | 欧美中文字幕久久 | 国产免费高清视频 | 久章草在线 | 精品久久影院 | 中文字幕在线视频国产 | 成人片在线播放 | 伊人电影在线观看 | 97视频入口免费观看 | 四虎永久网站 | 亚洲精品美女在线 | 午夜久久网 | 毛片99| 手机av网站 | 在线国产一区二区 | 久久久久成人精品免费播放动漫 | 精品色999| 国产精品黑丝在线观看 | 99久久精品日本一区二区免费 | 激情五月激情综合网 | 亚洲国产精品成人精品 | 日日躁夜夜躁aaaaxxxx | 日本aaaa级毛片在线看 | 狠狠婷婷 | www五月天com | 91热视频| 亚洲va在线va天堂 | 欧美一级片免费 | 国产又粗又长的视频 | 99精品一区 | 久久久精品高清 | 91福利小视频 | 丁香六月激情婷婷 | 丁香午夜| 国产专区一| 黄色在线免费观看网站 | 亚洲最大av在线播放 | 狠狠色丁香婷婷综合基地 | 久久爱资源网 | 成人午夜黄色影院 | 97国产视频 | 欧美污污视频 | 91最新地址永久入口 | 久久看看| 国产高清视频在线播放一区 | 久久字幕| 91在线九色| 色婷婷六月天 | 亚洲精品视频在 | 国产色区 | 中文字幕不卡在线88 | 久久国产网站 | 国产精品成久久久久三级 | 国产高清黄色 | av电影免费 | 91中文字幕 | 免费网站色 | 天天干天天拍天天操天天拍 | 97视频人人免费看 | 成人国产精品久久久春色 | 亚洲专区 国产精品 | 在线播放国产一区二区三区 | 99在线视频观看 | 成年人黄色免费网站 | 亚洲四虎 | 一级一片免费观看 | 日韩在线三级 | 天天爽夜夜爽人人爽一区二区 | 中文字幕在线视频一区二区三区 | 久久av网| 国产中文视 | 天天曰天天爽 | 碰超在线 | 中文字幕免费高清av | 日本不卡视频 | 91中文在线视频 | 国产精品视频免费在线观看 | 成人一区二区三区在线 | 日韩av二区 | 日韩av在线一区二区 | 最新午夜电影 | 久久久国产高清 | 欧美精品九九99久久 | 亚洲一级电影在线观看 | 午夜91视频| 欧洲亚洲国产视频 | 99精品系列 | 国产高清精品在线 | 人人狠狠| 国产vs久久| 亚洲波多野结衣 | 最新精品视频在线 | www五月天com | 国产人在线成免费视频 | 91精品久久香蕉国产线看观看 | 久久久久色 | 亚洲免费精品视频 | 国产剧情亚洲 | 中文字幕人成不卡一区 | 丁香激情综合久久伊人久久 | 国产又粗又猛又色又黄网站 | 国产精品欧美久久久久三级 | 成年人免费电影 | 天天操夜夜逼 | 欧洲亚洲精品 | 99精品免费久久久久久久久 | 欧洲精品码一区二区三区免费看 | 成人午夜电影久久影院 | 亚洲精品白浆高清久久久久久 | 国产香蕉在线 | 中文字幕在线资源 | 欧美大片aaa| 国产黄a三级三级三级三级三级 | 欧美另类xxx | 亚洲精品一区二区精华 | www.婷婷色| 美女网站在线播放 | 91正在播放 | 色偷偷88888欧美精品久久 | 亚洲综合导航 | 国产精品理论片 | 日韩精品黄 | 不卡av在线 | 久久男人影院 | 人人看看人人 | 精品久久91 | 五月婷在线播放 | 麻豆精品传媒视频 | 国产91粉嫩白浆在线观看 | 91在线看网站 | 欧美福利精品 | 日韩3区 | 成人免费在线电影 | 国产最新福利 | 丝袜av一区 | 日韩a在线观看 | 日韩一区二区三区在线看 | 久久五月婷婷丁香社区 | 精品国产乱码久久久久久三级人 | 免费观看第二部31集 | 欧美 另类 交 | 精品久久久免费视频 | 国产免费又爽又刺激在线观看 | 成人精品国产 | 成人久久18免费网站麻豆 | www.av在线播放 | 免费日韩 精品中文字幕视频在线 | 色视频在线看 | 成人黄色在线视频 | www.五月天色 | 亚洲日本中文字幕在线观看 | 手机av在线网站 | 国产人成免费视频 | jizz18欧美18| 中文字幕在线国产 | 国产精品午夜免费福利视频 | 国产大片黄色 | 日韩免费视频线观看 | 精品国产免费久久 | 午夜视频一区二区三区 | 日韩三区在线 | 国产成人精品国内自产拍免费看 | 亚洲免费成人av电影 | 成人欧美一区二区三区在线观看 | 麻豆国产在线视频 | 99久久精品免费看 | 久久久国产一区二区三区 | 91精品国产成人观看 | 成人性生交大片免费观看网站 | 91麻豆福利| а天堂中文最新一区二区三区 | 国产精品9999久久久久仙踪林 | 国语黄色片 | 97av在线视频 | 手机看片中文字幕 | 成人国产精品入口 | 人人要人人澡人人爽人人dvd | 天天草天天干天天 | 日韩精品在线一区 | 久久99精品国产麻豆宅宅 | 久久er99热精品一区二区 | av 一区二区三区四区 | 亚洲一区日韩精品 | 尤物一区二区三区 | 91网站在线视频 | 日韩精品一区二区不卡 | 9ⅰ精品久久久久久久久中文字幕 | 中文永久免费观看 | 婷婷六月天天 | 国产露脸91国语对白 | 国产黄色片久久 | www.久久成人| 国产成人精品一区二区三区福利 | 日韩精品一区二区在线视频 | 亚洲视频大全 | 日韩免费在线观看网站 | 国产成人免费av电影 | 香蕉影院在线观看 | 中文字幕在线观看播放 | 日本在线成人 | 国产免费作爱视频 | 伊人天堂av| 亚洲色图美腿丝袜 | 波多野结衣在线观看视频 | 99热这里有精品 | 91九色成人 | 久久a免费视频 | 人人爽人人射 | 乱子伦av| 中文字幕制服丝袜av久久 | 精品欧美在线视频 | 免费观看的黄色片 | 日本中出在线观看 | 日本丰满少妇免费一区 | 国产中年夫妇高潮精品视频 | 91探花国产综合在线精品 | 一区二区三区福利 | 久草在线资源观看 | 欧洲精品视频一区二区 | 伊人色**天天综合婷婷 | 色永久免费视频 | 中文字幕av专区 | 麻豆视频在线播放 | 亚洲一级免费电影 | 久久免费毛片视频 | 91麻豆操| 91看片在线看片 | www.com黄色| 成人91在线观看 | 国产精品12345 | 欧美三级高清 | 91麻豆精品国产91 | 国产精品久久久久久一区二区 | 中文字幕在线国产精品 | 国产成人av片 | 激情五月色播五月 | www免费在线观看 | av在线日韩 | 国产久视频| 中文字幕在线观看91 | 中文字幕二区 | av电影在线观看完整版一区二区 | 久久久久高清毛片一级 | 久久免费视频在线 | 91av视频导航| 天天操天天操天天操 | 国产午夜精品免费一区二区三区视频 | 久久国产日韩 | 国产免费观看视频 | 国产精品久久久久久高潮 | 免费看黄视频 | 日韩影视精品 | 中文字幕色婷婷在线视频 | 免费看网站在线 | 日韩资源在线播放 | 伊人国产在线观看 | 国产精品久久婷婷六月丁香 | 在线观看视频你懂得 | 亚洲三级国产 | 狠狠色噜噜狠狠狠狠2022 | 久久久久久久久久久影视 | 欧美性成人 | 日韩免费网站 | 涩涩伊人 | 精品一区二区视频 | 日韩av影视| 久久婷婷五月综合色丁香 | 久久久黄视频 | 国产精品高潮呻吟久久av无 | 在线国产日韩 | www最近高清中文国语在线观看 | 日韩免费成人 | 亚洲一级免费电影 | 国产精品永久久久久久久www | 免费视频你懂的 | 午夜精品久久久久久久99 | 丝袜美腿亚洲综合 | 午夜精品视频福利 | 亚洲精品理论 | 欧美综合色在线图区 | 久久精品国产一区 | 超碰97免费在线 | 中文字幕欧美日韩va免费视频 | 日本精品一区二区三区在线观看 | 就操操久久 | 在线免费观看黄色大片 | 成人网在线免费视频 | 国产精品美女久久久久久 | 菠萝菠萝在线精品视频 | 久久免费看av | 精品伦理一区二区三区 | av成人免费在线观看 | 91麻豆看国产在线紧急地址 | 黄色精品国产 | 国产精品久久一区二区三区, | 精品国产一区二区在线 | 日韩在线电影一区二区 | 四虎在线观看视频 | 国产精品亚洲片夜色在线 | 日韩欧美在线免费观看 | av免费网站 | 国产成人精品一区二区在线观看 | 狠狠亚洲 | 天天色天天上天天操 | 丰满少妇在线观看网站 | 婷婷久久国产 | 欧洲一区二区三区精品 | 狠狠操电影网 | 久免费视频 | 国产精品久久久av久久久 | 激情久久久| av免费电影网站 | 国内精品一区二区 | 国产成人免费网站 | 国产精品久久久久av福利动漫 | 日本久久免费电影 | 免费在线观看成人 | 国产粉嫩在线 | 久久草草热国产精品直播 | 亚州av网站大全 | 日韩专区中文字幕 | 日韩一区精品 | 欧美日韩一区二区三区在线观看视频 | 国内精品久久久精品电影院 | 色综合色综合色综合 | 精品国产_亚洲人成在线 | 成人九九视频 | 超碰成人av | 欧美 日韩 成人 | 亚洲女同ⅹxx女同tv | 欧美精品免费一区二区 | 免费在线观看日韩欧美 | 久久国产精品免费一区二区三区 | 色偷偷888欧美精品久久久 | 欧美日韩国产精品一区二区 | 一区二区三区国产欧美 | 免费日韩一区二区三区 | 国产精品不卡一区 | 91精品综合在线观看 | 国产精品中文久久久久久久 | 欧美一区二区三区特黄 | av免费看网站 | 黄色小视频在线观看免费 | 97网在线观看 | 国产成人久久精品一区二区三区 | 亚洲日韩精品欧美一区二区 | 91av99| 日日夜夜网站 | 欧美日韩不卡一区二区三区 | 啪啪肉肉污av国网站 | 国产精品免费视频一区二区 | 国产一级片不卡 | 久久久久免费精品视频 | 五月导航 | 日韩欧美xx | 婷婷精品视频 | 国产第一福利 | 久热免费在线观看 | 在线播放日韩 | 国产视频精品视频 | 亚洲一区久久久 | 欧美性猛片 | 91成熟丰满女人少妇 | 色爽网站 | 国产专区视频在线观看 | 日日操日日干 | 亚洲成人av电影在线 | 九九色网 | 国产无吗一区二区三区在线欢 | 国产精品综合久久久 | 最近免费中文字幕mv在线视频3 | 日韩免费中文 | 四虎成人免费观看 | 一级欧美日韩 | 日韩一二三在线 | 91精品第一页 | 手机av在线不卡 | 欧美日韩三级在线观看 | 在线观看av网| 国产国产人免费人成免费视频 | av东方在线 | 99在线视频免费观看 | 久久在线视频在线 | 日日日日干 | 丁香六月av | www免费看 | 日本乱视频 | 综合网天天色 | 久久精品一二区 | 久久久黄视频 | 国产成人免费网站 | 黄色一级大片在线免费看产 | 中文字幕亚洲精品在线观看 | 天天综合入口 | 欧美久草视频 | 91九色精品女同系列 | 日韩欧美精品在线 | 国产精品久久久久一区二区 | 丁香影院在线 | 国产精品嫩草影院99网站 | 国产精品va| 精品国产1区二区 | 午夜国产在线 | 波多野结衣在线中文字幕 | 国产免费影院 | 久久超级碰视频 | 亚洲高清激情 | 亚洲最大色 | 干干夜夜 | 视频在线一区 | 久久精品直播 | 欧美日韩在线播放一区 | 国产破处精品 | 国内精品久久久久久中文字幕 | 91入口在线观看 | www.成人sex| 99久久久久 | 国产成人亚洲在线观看 | 午夜精品久久久久久久99水蜜桃 | 久久人人精品 | 欧美日韩在线播放一区 | 亚洲精选视频免费看 | 欧美视频www| 国产91勾搭技师精品 | 成人网中文字幕 | 在线国产中文字幕 | 亚洲精品九九 | 国产裸体永久免费视频网站 | 一级黄色片在线免费看 | 91九色在线 | 久久不卡国产精品一区二区 | 992tv人人草 黄色国产区 | 天天插夜夜操 | 亚洲日本va午夜在线影院 | 久久久久99精品国产片 | 中文字幕在线观 | 欧美精品乱码99久久影院 | 欧美一级特黄aaaaaa大片在线观看 | 天天想夜夜操 | 韩国av免费观看 | 亚洲精区二区三区四区麻豆 | 国产精品国产三级国产专区53 | 精品国产伦一区二区三区观看说明 | 亚洲视频,欧洲视频 | 欧美一级乱黄 | 欧美日韩国产二区三区 | 国产精品黄色影片导航在线观看 | 91精品一区二区三区久久久久久 | 欧美精品久久久久久久久老牛影院 | 国产成人一区在线 | 色网站在线 | 制服丝袜亚洲 | 在线视频免费观看 | 久久影院中文字幕 | 中文字幕在线播放一区二区 | 久久免费精品 | 久久精品欧美日韩精品 | 西西人体4444www高清视频 | 精品1区2区 | 天天操夜夜想 | 日韩精品影视 | 日韩在线免费视频 | 国产精品一区一区三区 | 午夜精品成人一区二区三区 | 亚洲va欧美va人人爽 | 激情五月婷婷综合网 | 色婷婷免费视频 | 看黄色.com | av天天色| 久久久99精品免费观看 | 欧美日韩免费观看一区二区三区 | 久在线| 中文字幕婷婷 | 在线免费观看国产精品 | 国产精品美女久久久久久久久久久 | 99国产精品视频免费观看一公开 | 欧美韩国日本在线观看 | 成人av影院在线观看 | 久久久久久久精 | 狠狠五月婷婷 | 久草视频免费 | 日韩视频一区二区三区在线播放免费观看 | 久久久久高清毛片一级 | 国产成人精品久久二区二区 | 亚州精品国产 | 中文字幕第一 | 欧美日韩中文视频 | 国产成人一区二区精品非洲 | 久久国产剧场电影 | 日日射天天射 | 欧美一区二区三区四区夜夜大片 | 国产精品白丝jk白祙 | 久久久久久久久久久网 | 一区三区视频 | 色综合夜色一区 | 欧美精品一区二区免费 | 亚洲综合视频网 | 精品一区二区免费视频 | 国产成人精品福利 | 国内免费的中文字幕 | 色姑娘综合 | 9999精品| 久久亚洲影视 | 亚洲aⅴ在线 | 国产一区二区三区黄 | 亚洲免费不卡 | 欧美精品久久久久久久亚洲调教 | 国产精品高清免费在线观看 | 日韩在线观看一区二区 | 亚洲欧美视频 | 天天射综合 | 亚洲精品18日本一区app | 国产亚洲欧美在线视频 | 国产精品原创视频 | 九九热久久久 | 国内久久视频 | 亚洲国内精品视频 | 亚洲国产日韩欧美 | 天无日天天操天天干 | 丁香花在线观看免费完整版视频 | 91大神免费视频 | 贫乳av女优大全 | 欧美日韩国产一区二区三区 | 精品女同一区二区三区在线观看 | 国产一区成人 | 亚洲欧美国内爽妇网 | 成人小视频在线免费观看 | 日韩三级在线观看 | 色婷婷久久久 | 国产精品手机在线观看 | 美女国产网站 | 日韩精品五月天 | 国产精品久久久久久久久久久杏吧 | 99久久99视频 | 色综合久久久久综合 | 精品视频在线免费 | 日韩三级成人 | 久久免费国产视频 | 国产精品久久久久久久久久久久午夜片 | 亚洲国产美女久久久久 | 国产日韩欧美在线观看 | 黄色网址国产 | 日韩在线视 | 热久久免费视频 | 91免费网站在线观看 | 99久久精品久久亚洲精品 | www..com黄色片 | 91精品国产欧美一区二区成人 | av电影在线观看完整版一区二区 | 久久久精品国产免费观看同学 | 日韩在线观看一区 | 视频在线精品 | 九九在线播放 | 黄色av播放| 91精品国产亚洲 | 99久久99视频 | 日韩精品一区二区免费 | 伊人国产在线播放 | 欧美性色综合网 | 99视频国产精品 | 九九视频免费观看视频精品 | 91精品一区二区在线观看 | 在线观看黄 | 在线视频在线观看 | 国产在线观看91 | 亚洲综合成人av | 夜夜操天天 | 久久一级片| 在线欧美日韩 | 91免费观看视频网站 | 99久e精品热线免费 99国产精品久久久久久久久久 | 精品国产一区二区三区久久 | 亚洲最大av在线播放 | 日韩欧美在线中文字幕 | 国产成人精品久久亚洲高清不卡 | 欧美激情视频一二区 | 91大神精品视频在线观看 | 国产视频丨精品|在线观看 国产精品久久久久久久久久久久午夜 | 美女视频黄,久久 | 精品视频在线免费 | 久久精品免费 | 久草视频免费 | 美女网站在线免费观看 | 国产亚洲精品久久久久久电影 | 五月综合在线观看 | 免费国产在线观看 | 综合久久五月天 | 超碰免费公开 | 精品国产伦一区二区三区免费 | 天天干夜夜 | 98精品国产自产在线观看 | 丰满少妇对白在线偷拍 | 丁香午夜婷婷 | 国产aaa大片| 国产 精品 资源 | 麻豆精品在线视频 | av成人动漫在线观看 | 免费观看不卡av | 久久免费视频这里只有精品 | 久久69精品久久久久久久电影好 | 中文字幕中文字幕在线中文字幕三区 | 91在线小视频 | 午夜精品久久久久久久久久久久 | 国产精品1000 | 国产精品女同一区二区三区久久夜 | 日本女人的性生活视频 | 五月天激情在线 | www.91成人 | 麻豆91网站| 男女免费视频观看 | av黄色免费网站 | 中文字幕在线免费观看视频 | 亚洲观看黄色网 | 国产精品久久久久久久久免费 | 日韩欧美在线视频一区二区三区 | 欧美视频在线二区 | 国产精品免费观看久久 | 中文字幕国产一区 | 久久国语 | 激情综合久久 | 国产精品完整版 | 91av99 | 午夜久久 | 日p视频在线观看 | 国产成人福利片 | 在线欧美中文字幕 | 日本高清久久久 | 日韩色在线 | 国产精品久久久久久久久久久久午夜 | 超碰在线9 | 国产夫妻自拍av | 国产传媒中文字幕 | 欧美黄在线 | 成人毛片网 | 精品日韩在线 | www.夜夜爽| 91视频麻豆视频 | 欧美性护士 | 国产视频一区二区三区在线 | 五月天综合网 | 精品国产乱码久久久久久1区2匹 | 香蕉视频国产在线观看 | 国产精品第2页 | 一区二区三区韩国免费中文网站 | 色婷婷www | 精品成人国产 | 日韩一区二区三区高清在线观看 | 亚洲精品女人久久久 | 国产精品免费观看久久 | 中文永久免费观看 | 91九色丨porny丨丰满6 | 天天射射天天 | 五月天久久婷婷 | 日韩中文在线视频 | 最近日韩免费视频 | 人人视频网站 | 亚洲精品一区二区三区新线路 | 亚洲专区中文字幕 | 波多野结衣电影一区 | 国产精品综合久久久久久 | 一区二区三区手机在线观看 | 午夜电影 电影 | 国产一区 在线播放 | 91在线视频观看 | 亚洲 欧美 成人 | 欧美极度另类性三渗透 | 香蕉一区 | 97天堂 | 亚洲精品乱码久久久一二三 | 91av视频在线观看免费 | 日本超碰在线 | 五月婷婷丁香六月 | 91成人在线观看喷潮 | 国产精品地址 | 精品国偷自产在线 | 天天干.com | 色婷久久 | 国产成人黄色片 | 干亚洲少妇 | 96视频免费在线观看 | 99国产一区二区三精品乱码 | 久久韩国免费视频 | a精品视频 | 成人免费观看电影 | 欧美性久久久久久 | 日韩精品一区二区三区免费观看视频 | 四虎8848免费高清在线观看 | 91黄色影视 | 亚洲精品观看 | 韩国一区二区av | 日韩精品免费在线观看 | 色播六月天 | 日韩成人中文字幕 | 国产精品一区二区在线免费观看 | 欧美精品在线视频观看 | 在线色资源 | 日日夜夜骑 | 麻豆精品视频在线 | 婷婷激情综合五月天 | 国产精品一区久久久久 | 夜夜干夜夜 | 久久爱资源网 | 伊人日日干 | 国产精品精品国产 | 日韩精品中文字幕在线不卡尤物 | 西西大胆免费视频 | 手机看片午夜 | 久久久久网址 | 日韩精品欧美专区 | 国产精品乱码久久久 | 成人午夜精品久久久久久久3d | 亚洲电影成人 | 激情五月色播五月 | 91精品视频在线免费观看 | 国产乱对白刺激视频不卡 | 国内精品久久久久影院一蜜桃 | 日韩欧美高清在线 | 日韩av中文在线观看 | av在线等| 国产色妞影院wwwxxx | 伊人永久| 欧美日韩中文国产一区发布 | 欧美午夜a | 丁香在线| 天天色天天| 亚洲国产综合在线 | 在线视频 影院 | 精品xxx | 国产日产在线观看 | 国产精品久久 | 综合色中色 | 国产视频在线观看一区二区 | 国产在线国偷精品产拍免费yy | 国产亚洲精品av | 91三级在线观看 | 亚洲精品影院在线观看 | 精品中文字幕视频 | 在线最新av| 亚洲成av人片在线观看无 | 中文资源在线播放 | 久操操 | 午夜久久久久久久久久影院 | 国产麻豆精品在线观看 | 天天天天爽 | 久久久国产电影 | 国产亚洲成人网 | 丁香六月激情婷婷 | 日韩精品播放 | 99精品视频精品精品视频 | 亚洲成人麻豆 | 丰满少妇一级片 | 国产精品久久久久久五月尺 | 国产视频在线观看免费 | 国产一级视频在线 | 亚洲免费av电影 | 一级做a视频 | 久久综合影院 | 国产精品中文字幕在线播放 | 91免费观看国产 | 亚洲首页| 伊人久久国产 | 久久精品中文字幕免费mv | 欧美精品999 | 特级毛片aaa| 韩国精品在线 | 久久久高清免费视频 | 亚洲区精品 | 亚洲欧美日韩一二三区 | 91在线小视频 | 免费网站黄 | 国产精品久久久久三级 | 国产一区在线免费观看 | 91成人破解版 | 国产高清久久久 | 久久精美视频 | 美女视频a美女大全免费下载蜜臀 | 久久99操| 久操视频在线观看 | 久久成人18免费网站 | 久久精品视频在线免费观看 | 日本黄色片一区二区 | 色网影音先锋 | 超碰97人人爱 | 国产午夜av | 日本护士三级少妇三级999 | 青青草久草在线 | www91在线观看 | 国产精品久久综合 | 日韩中文字幕91 | a在线观看国产 | 91免费在线视频 | 国产视频网站在线观看 | 久久艹在线| 18做爰免费视频网站 | 亚洲 欧洲 国产 日本 综合 | 欧美日韩国产精品久久 | 正在播放亚洲精品 | 麻豆一区二区三区视频 | 中文字幕亚洲欧美日韩2019 | 玖玖在线看 | 日韩av视屏在线观看 | 在线观看va | 国产精品一区二区在线 | a视频在线 | 久久久久电影 | 在线之家免费在线观看电影 | 亚洲精品久久视频 | 97av视频在线观看 | 欧美最爽乱淫视频播放 | 久久久国产精品麻豆 | 一级片免费在线 | www.激情五月.com | 欧美日韩二三区 | 久久高清av | www.亚洲视频.com | 国产精品都在这里 | 在线观看的av网站 | 久久国产成人午夜av影院潦草 | 激情网色 | 插插插色综合 | 色天天久久 | 欧美 另类 交 | 欧美精品久久久 | 精品欧美小视频在线观看 | 综合网婷婷| 久久特级毛片 | 99久视频|