日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

随机生成稀疏矩阵_面向异构众核超级计算机的大规模稀疏计算性能优化研究

發(fā)布時(shí)間:2023/12/3 编程问答 55 豆豆
生活随笔 收集整理的這篇文章主要介紹了 随机生成稀疏矩阵_面向异构众核超级计算机的大规模稀疏计算性能优化研究 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

點(diǎn)擊上方藍(lán)字關(guān)注我們

面向異構(gòu)眾核超級(jí)計(jì)算機(jī)的大規(guī)模稀疏計(jì)算性能優(yōu)化研究

胡正丁,?薛巍

清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084

論文引用格式:

胡正丁,?薛巍.面向異構(gòu)眾核超級(jí)計(jì)算機(jī)的大規(guī)模稀疏計(jì)算性能優(yōu)化研究[J].大數(shù)據(jù), 2020, 6(4):40-55.

HE X B, JIANG J H.Research on performance optimization for large-scale sparse computation over many-core heterogenous supercomputer[J].Big Data Research, 2020, 6(4):40-55.

1 引言

近年來(lái),隨著計(jì)算機(jī)系統(tǒng)和大數(shù)據(jù)技術(shù)的發(fā)展,大規(guī)模數(shù)值計(jì)算、科學(xué)計(jì)算等在大型異構(gòu)并行系統(tǒng)上的應(yīng)用逐漸深入。從對(duì)自然現(xiàn)象的模擬和預(yù)測(cè)到工程學(xué)設(shè)計(jì)和產(chǎn)品研發(fā),超級(jí)計(jì)算(以下簡(jiǎn)稱超算)在這些領(lǐng)域發(fā)揮著不可或缺的作用。與此同時(shí),應(yīng)用的需求反過來(lái)也促進(jìn)了超級(jí)計(jì)算機(jī)的發(fā)展,更大型超級(jí)計(jì)算系統(tǒng)的構(gòu)建使得更多富有挑戰(zhàn)性的任務(wù)的解決成為可能。大規(guī)模計(jì)算往往與大數(shù)據(jù),特別是大規(guī)模稀疏數(shù)值問題緊密相連。數(shù)值天氣預(yù)報(bào)通過數(shù)值計(jì)算求解描述天氣演變過程的流體力學(xué)和熱力學(xué)的方程組,以預(yù)測(cè)未來(lái)的大氣運(yùn)動(dòng)狀態(tài)和天氣現(xiàn)象。若在全球采取千米級(jí)分辨率,會(huì)產(chǎn)生百億規(guī)模的計(jì)算網(wǎng)格,相應(yīng)的聯(lián)立方程組規(guī)模會(huì)達(dá)到千億級(jí)別。7天左右的天氣預(yù)報(bào)需要約6萬(wàn)步迭代,而涉及氣候預(yù)測(cè)的時(shí)間跨度甚至多達(dá)數(shù)年,其中的計(jì)算規(guī)模和數(shù)據(jù)規(guī)模是難以想象的。在線網(wǎng)絡(luò)欺詐分析結(jié)合大數(shù)據(jù)和人工智能技術(shù)檢測(cè)網(wǎng)絡(luò)欺詐行為,需要保證預(yù)測(cè)結(jié)果的準(zhǔn)確性和實(shí)時(shí)性。全球的中文網(wǎng)頁(yè)約有2 700億個(gè),鏈接數(shù)量達(dá)12萬(wàn)億個(gè),相應(yīng)網(wǎng)頁(yè)圖存儲(chǔ)規(guī)模達(dá)到137 TB,這無(wú)疑對(duì)數(shù)據(jù)存取和算法運(yùn)行效率提出了很高的要求。稀疏問題的計(jì)算核心(如稀疏矩陣運(yùn)算和圖遍歷等)在大規(guī)模計(jì)算中廣泛存在。天氣預(yù)報(bào)、地震分析等自然現(xiàn)象模擬過程需要對(duì)大規(guī)模偏微分方程進(jìn)行求解,其中涉及頻繁的稀疏矩陣運(yùn)算操作。而蛋白質(zhì)交互、基因工程和腦科學(xué)等科學(xué)研究工作需要對(duì)大規(guī)模稀疏圖進(jìn)行生成、遍歷和處理。超級(jí)計(jì)算機(jī)系統(tǒng)由于具有強(qiáng)大的存儲(chǔ)和計(jì)算能力,成為解決大規(guī)模稀疏問題的有效選擇。而由于其訪存和計(jì)算模式的特殊性質(zhì),稀疏問題在并行和分布式計(jì)算機(jī)系統(tǒng)上的求解成為一個(gè)難題,具體體現(xiàn)在任務(wù)劃分、計(jì)算調(diào)度、存儲(chǔ)管理和功耗管理等多個(gè)方面。超級(jí)計(jì)算機(jī)給稀疏問題求解帶來(lái)了全新的機(jī)遇和挑戰(zhàn)。因此,本文針對(duì)基于異構(gòu)眾核的超級(jí)計(jì)算機(jī)——“神威·太湖之光”的大數(shù)據(jù)稀疏問題解決和優(yōu)化方案進(jìn)行闡述,探討異構(gòu)眾核計(jì)算機(jī)架構(gòu)下大規(guī)模稀疏計(jì)算性能優(yōu)化的一般性方法,為在新一代異構(gòu)眾核系統(tǒng)上開展大規(guī)模稀疏計(jì)算問題求解提供借鑒。

2 稀疏問題的計(jì)算挑戰(zhàn)

因?yàn)橄∈鑶栴}具有非規(guī)則的計(jì)算與訪存特征,所以其在大規(guī)模超級(jí)計(jì)算機(jī)中的求解面臨嚴(yán)峻的挑戰(zhàn),主要包括以下幾點(diǎn)。(1)不規(guī)則的主存儲(chǔ)器訪問隨著CPU主頻的提高和處理器計(jì)算能力的不斷增強(qiáng),CPU運(yùn)算速度與主存帶寬不匹配的問題越來(lái)越嚴(yán)重。與計(jì)算密集型應(yīng)用不同,稀疏計(jì)算核心的計(jì)算訪存比往往較低。典型的稀疏計(jì)算問題(如稀疏矩陣向量乘法、基礎(chǔ)向量矩陣運(yùn)算、模板計(jì)算等)只有常數(shù)級(jí)別的計(jì)算訪存比,而其余典型算術(shù)核心(如渦格法、快速傅里葉變換、粒子法)的計(jì)算訪存比會(huì)達(dá)到O(logN)甚至O(N)的級(jí)別。因此對(duì)于稀疏計(jì)算型應(yīng)用而言,存儲(chǔ)器訪問的開銷可能遠(yuǎn)遠(yuǎn)超過計(jì)算本身帶來(lái)的開銷,使得訪存問題成為應(yīng)用開發(fā)過程中需要重點(diǎn)關(guān)注的部分。計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器架構(gòu)往往是多級(jí)的。靠近處理器的存儲(chǔ)層級(jí)一般存取速度快,但容量較小;反過來(lái),遠(yuǎn)離處理器的存儲(chǔ)層級(jí)容量大、速度慢。對(duì)于大規(guī)模計(jì)算機(jī)系統(tǒng)而言,這種容量和計(jì)算速度的對(duì)比往往更加夸張。因此,要解決應(yīng)用的訪存問題,需要解決大規(guī)模稀疏數(shù)據(jù)的存儲(chǔ)管理策略問題,盡量將頻繁使用的數(shù)據(jù)放在高層級(jí),減少低層存儲(chǔ)器的訪問次數(shù),同時(shí)做好數(shù)據(jù)的分塊和搬運(yùn)策略,增強(qiáng)訪存的連續(xù)性和一致性。稀疏型計(jì)算問題的訪存模式是不規(guī)則的。稀疏計(jì)算問題的數(shù)據(jù)局部性較差,可能存在離散化、隨機(jī)化、不規(guī)則訪存的問題,隨機(jī)化訪存對(duì)數(shù)據(jù)分塊和局部化并不友好,而細(xì)粒度訪存會(huì)導(dǎo)致不同節(jié)點(diǎn)的競(jìng)爭(zhēng),增大存儲(chǔ)總線的壓力。稀疏計(jì)算問題的這種特性給開發(fā)者的存儲(chǔ)管理策略帶來(lái)了許多困難。此外,傳統(tǒng)的動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dynamic random access memory, DRAM)價(jià)格昂貴、能耗高、性能不穩(wěn)定,給許多大數(shù)據(jù)稀疏問題的解決帶來(lái)了限制。近年來(lái)出現(xiàn)了大量的新型非易失性存儲(chǔ)器(non-volatile memory,NVM),它們具有價(jià)格和能耗較低、容量大、性能高的特點(diǎn),給內(nèi)存存儲(chǔ)與計(jì)算模式帶來(lái)了巨大的變革,新型內(nèi)存計(jì)算技術(shù)正在蓬勃發(fā)展。為了充分利用NVM容量大和DRAM讀寫性能好的優(yōu)勢(shì),并且最大限度地避免各種存儲(chǔ)介質(zhì)的缺陷,DRAM-NVM異構(gòu)內(nèi)存系統(tǒng)的設(shè)計(jì)與優(yōu)化成為研究的熱點(diǎn)。這種異構(gòu)系統(tǒng)的實(shí)現(xiàn)面臨體系結(jié)構(gòu)、系統(tǒng)軟件、編程模型等多個(gè)層面的挑戰(zhàn),相關(guān)研究工作已經(jīng)提出了具有針對(duì)性的解決方案。例如,相變存儲(chǔ)器(phase change memory,PCM)就是非易失性存儲(chǔ)器的一種,其存儲(chǔ)密度較高、持久性強(qiáng),有學(xué)者通過將PCM與DRAM結(jié)合來(lái)構(gòu)建優(yōu)勢(shì)互補(bǔ)的混合存儲(chǔ)架構(gòu)。(2)可并行化與負(fù)載均衡部分稀疏計(jì)算核心可能存在非規(guī)則的計(jì)算模式。比如,在求解線性方程組用到稀疏矩陣LU分解(LU factorization)與稀疏三角矩陣方程求解(sparse triangular solver,SpTRSV)的過程中,不同位置的數(shù)據(jù)具有計(jì)算依賴關(guān)系,存在求解的先后順序。在模板計(jì)算中,每個(gè)進(jìn)程需要等待halo區(qū),也就是由其部分鄰居進(jìn)程負(fù)責(zé)計(jì)算的數(shù)據(jù)區(qū)域完成后才可開始下一步計(jì)算。這種基于數(shù)據(jù)依賴的非規(guī)則計(jì)算模式使得傳統(tǒng)分塊并行方法不再適用,開發(fā)者需要最大限度地挖掘應(yīng)用中可并行化的部分。同時(shí),多核計(jì)算機(jī)系統(tǒng)中每個(gè)處理器的負(fù)載也是需要考慮的問題。稀疏矩陣中的非零元排布如圖1所示,其中b和x分別表示矩陣的行和列兩個(gè)維度。在一個(gè)稀疏矩陣中,不同行/列間的非零元分布密度可能存在巨大差別。如果采用靜態(tài)分塊方法,會(huì)導(dǎo)致不同處理器負(fù)責(zé)計(jì)算的非零元數(shù)目不均衡。這種不均衡不僅會(huì)大大降低應(yīng)用的性能,還可能造成部分處理器資源的浪費(fèi),增大應(yīng)用運(yùn)行的功耗和成本。這對(duì)大規(guī)模稀疏問題的問題劃分和任務(wù)分配提出了更高的要求。(3)數(shù)據(jù)傳輸與通信在大規(guī)模異構(gòu)計(jì)算機(jī)系統(tǒng)上,稀疏問題的求解往往涉及頻繁的進(jìn)程間/節(jié)點(diǎn)間通信。這種通信給I/O和節(jié)點(diǎn)間網(wǎng)絡(luò)帶來(lái)了巨大壓力。隨著眾核架構(gòu)的廣泛使用,處理器主頻和單核的計(jì)算能力受限,原有的超算基礎(chǔ)軟件(如MPI通信庫(kù))主要面向進(jìn)程通信開發(fā),其中的大量計(jì)算功能依賴單核的計(jì)算能力,已經(jīng)無(wú)法滿足新的架構(gòu)需求;同時(shí),隨著管理進(jìn)程數(shù)的增加,超算基礎(chǔ)軟件本身的內(nèi)存開銷成為一個(gè)不可忽視的問題,這些都成為限制大數(shù)據(jù)稀疏應(yīng)用性能提升的關(guān)鍵因素。隨著超算規(guī)模的增大,相對(duì)固定的系統(tǒng)配置無(wú)法與多種多樣的應(yīng)用計(jì)算和通信模式有效匹配,同時(shí)在通信、I/O層面的應(yīng)用相互干擾問題愈加突出。通信瓶頸往往會(huì)對(duì)應(yīng)用性能的可擴(kuò)展性與穩(wěn)定性造成影響。因此,如何解決數(shù)據(jù)的傳輸和通信問題,對(duì)于應(yīng)用開發(fā)者來(lái)說(shuō)是一項(xiàng)挑戰(zhàn)。在大數(shù)據(jù)時(shí)代,應(yīng)用的問題規(guī)模和相應(yīng)的數(shù)據(jù)規(guī)模呈爆炸式增長(zhǎng),大量非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn)使得提取信息的難度越來(lái)越大,也對(duì)外存儲(chǔ)器的訪問效率提出了更高的要求。顯然,基于磁盤的存儲(chǔ)系統(tǒng)已經(jīng)難以滿足日益增長(zhǎng)的訪問需求。與磁盤相比,閃存(flash memory)具有體積小、能耗低、帶寬高、時(shí)延低、抗震性強(qiáng)、可靠性高等特點(diǎn),研究人員正著力于構(gòu)建大規(guī)模閃存存儲(chǔ)系統(tǒng),以充分發(fā)揮閃存優(yōu)勢(shì),適應(yīng)大數(shù)據(jù)環(huán)境的發(fā)展。

3 異構(gòu)眾核架構(gòu)及挑戰(zhàn)

本文以典型的異構(gòu)眾核超級(jí)計(jì)算機(jī)——“神威·太湖之光”中的申威26010眾核處理器(SW26010)為例,介紹異構(gòu)眾核架構(gòu)及其應(yīng)用開發(fā)的挑戰(zhàn)。圖1???稀疏矩陣中的非零元排布

3.1 異構(gòu)眾核架構(gòu)設(shè)計(jì)

圖2所示為典型的采用異構(gòu)眾核架構(gòu)的申威26010眾核處理器,每個(gè)處理器包含4個(gè)核組,每個(gè)核組通過片上網(wǎng)絡(luò)互聯(lián),并通過PCI-E 3.0對(duì)外連接。每個(gè)核組獨(dú)立運(yùn)行,包含一個(gè)控制核心(主核)、64個(gè)運(yùn)算核心(從核)和一個(gè)內(nèi)存控制器。整個(gè)處理器可以提供3.06 TFlops的雙精度浮點(diǎn)計(jì)算峰值性能和136 GB/s的理論總內(nèi)存帶寬。圖2???SW26010架構(gòu)主核擁有常規(guī)的兩級(jí)Cache系統(tǒng),通常被用于執(zhí)行管理和通信任務(wù)。從核具有很高的浮點(diǎn)運(yùn)算性能,通常被用于執(zhí)行計(jì)算任務(wù)。與常規(guī)的緩存方式不同,每個(gè)從核包含一個(gè)大小為64 KB的便箋存儲(chǔ)器(local data memory,LDM)。LDM由靜態(tài)隨機(jī)存取存儲(chǔ)器(static randomaccess memory,SRAM)設(shè)計(jì),與主存DRAM的地址空間分離,并對(duì)用戶可見,用戶需要顯式地控制數(shù)據(jù)在主存和LDM之間的傳輸。每個(gè)核組的64個(gè)從核構(gòu)成8×8的網(wǎng)格陣列,每?jī)尚袕暮斯蚕硪粭l連接到內(nèi)存控制器的總線。從核訪問主存的方式有兩種:一種是通過全局讀入(gload)和寫出(gstore)指令實(shí)現(xiàn)內(nèi)存-寄存器的數(shù)據(jù)傳輸,這種方式粒度較細(xì),更加靈活,但帶寬只能達(dá)到1.5 GB/s;另一種是通過直接內(nèi)存訪問(direct memory access,DMA)實(shí)現(xiàn)內(nèi)存-LDM的數(shù)據(jù)傳輸,再通過訪問LDM來(lái)獲取數(shù)據(jù)。DMA是一種粗粒度的訪存模式,根據(jù)StreamTriad測(cè)試,64個(gè)從核同時(shí)通過DMA訪存可以獲得22.6 GB/s的帶寬。SW26010另一個(gè)獨(dú)特的設(shè)計(jì)是從核陣列上的寄存器通信技術(shù)。根據(jù)StreamTriad測(cè)試,寄存器的通信時(shí)延僅11個(gè)指令周期,集合帶寬超過600 GB/s。在8×8的網(wǎng)格陣列中,同一行或同一列的從核可以高速互傳數(shù)據(jù)。每個(gè)從核都有一個(gè)發(fā)送緩沖區(qū)、一個(gè)行接收緩沖區(qū)和一個(gè)列接收緩沖區(qū)。在寄存器通信中,硬件會(huì)將發(fā)送緩沖區(qū)內(nèi)的數(shù)據(jù)放到目標(biāo)從核的行/列接收緩沖區(qū)中。這個(gè)過程以阻塞方式自動(dòng)進(jìn)行,直到發(fā)送緩沖區(qū)為空或者接收緩沖區(qū)已滿。

3.2 異構(gòu)眾核架構(gòu)的挑戰(zhàn)和開發(fā)技巧

異構(gòu)眾核架構(gòu)擁有與常規(guī)并行程序開發(fā)不同的編程和優(yōu)化模式。這種不同為大規(guī)模并行程序帶來(lái)巨大性能潛能的同時(shí),也給程序開發(fā)者提出了更多的要求。“神威·太湖之光”把并行度推進(jìn)到千萬(wàn)核級(jí)別,因而也對(duì)數(shù)值型應(yīng)用和優(yōu)化方法的可擴(kuò)展性提出了挑戰(zhàn)。因此,在開發(fā)過程中應(yīng)當(dāng)注意以下幾個(gè)方面。(1)充分發(fā)揮從核運(yùn)算性能SW26010每個(gè)核組內(nèi)的從核可以使用SunwayOpenACC或Athread實(shí)現(xiàn)并行執(zhí)行。根據(jù)性能指標(biāo)計(jì)算,SW26010上的主核浮點(diǎn)性能約為23.2 GFlops,而從核浮點(diǎn)性能達(dá)到了742.4 GFlops。由于這種浮點(diǎn)性能上的巨大差距,要提升計(jì)算密集型程序的運(yùn)行效率,就需要盡可能充分地發(fā)揮從核的運(yùn)算性能,充分發(fā)掘應(yīng)用內(nèi)部的并行性。由于從核的數(shù)目和物理拓?fù)潢P(guān)系相對(duì)固定,以及從核LDM大小和內(nèi)存帶寬的限制,應(yīng)用內(nèi)部的子問題劃分需要具有足夠的局部性,同時(shí)也要考慮從核陣列的排布特點(diǎn)。非同行/列的從核間無(wú)法直接進(jìn)行寄存器通信,可能需要其他從核參與,這會(huì)顯著增加從核間寄存器通信的開銷,因此最好將相鄰的任務(wù)分配到相同的行/列上。由于每?jī)尚袕暮酥g共享一條內(nèi)存總線,要想提升內(nèi)存帶寬,就需要充分利用4條內(nèi)存總線,將內(nèi)存訪問均勻地分配到每條總線上。對(duì)于一些計(jì)算和訪存不規(guī)則的應(yīng)用,簡(jiǎn)單的分塊方法可能造成從核間負(fù)載不均衡,因而無(wú)法完全發(fā)揮處理器的性能。這些都對(duì)并行問題的劃分提出了較高的要求。(2)充分利用LDM,減輕主存壓力SW26010主存和局部存儲(chǔ)器的訪問性能差異尤其明顯,從核進(jìn)行離散化訪存的開銷是高昂的,全局離散存/取(gload/gstore)指令需要超過200個(gè)時(shí)鐘周期,而訪問局部存儲(chǔ)器LDM僅需4個(gè)時(shí)鐘周期。因此,要提升并行程序的運(yùn)行效率,就要充分利用LDM局部存儲(chǔ)器,減少全局內(nèi)存訪問,設(shè)計(jì)好的緩存策略。SW26010的獨(dú)特架構(gòu)將緩存策略的設(shè)計(jì)交給開發(fā)者,這一做法更加增加了這一問題的重要性和難度。SW26010的從核LDM大小為64 KB,顯然無(wú)法滿足所有應(yīng)用對(duì)局部數(shù)據(jù)的需求。在一些程序中,頻繁的主存-LDM交換是可能存在的,而減少交換次數(shù)、提高交換效率是開發(fā)者需要考慮和實(shí)現(xiàn)的。合理的LDM管理策略是提高申威架構(gòu)下程序運(yùn)行效率的關(guān)鍵點(diǎn)之一。從核DMA的帶寬高達(dá)22.6 GB/s,而gload/gstore指令的帶寬只有不到1.5 GB/s。另外,DMA可以在數(shù)據(jù)傳輸過程中解放CPU,實(shí)現(xiàn)計(jì)算-訪存重疊模式,縮短時(shí)延。因此,連續(xù)化、聚合化的DMA訪存可以有效提升訪存效率,而部分應(yīng)用的不規(guī)則訪存模式增大了使用DMA的難度。值得注意的是,申威架構(gòu)的DMA效率在特定情況下可達(dá)到峰值。對(duì)于隨機(jī)化訪存,DMA操作性能會(huì)在256 B及以上的粒度下達(dá)到峰值。另外,由于DMA是以128 B大小的塊為單位進(jìn)行訪問的,因此數(shù)據(jù)需要按照128 B對(duì)齊,以充分發(fā)揮其性能。稀疏計(jì)算型應(yīng)用常常涉及對(duì)主存中多個(gè)數(shù)組的離散化、細(xì)粒度的訪問,這種訪問模式很難充分發(fā)揮DMA操作的性能,因此需要對(duì)數(shù)據(jù)布局進(jìn)行調(diào)整。對(duì)于多個(gè)具有相似的訪問模式的數(shù)組,可以將其合并,即將包含多個(gè)數(shù)組的結(jié)構(gòu)體(structure of arrays,SOA)轉(zhuǎn)化為一個(gè)大的包含多個(gè)元素的結(jié)構(gòu)體的數(shù)組(arrays of structures,AOS)。如果合并后的結(jié)構(gòu)體不滿足內(nèi)存對(duì)界要求,可以適當(dāng)?shù)丶尤肟瘴?padding)進(jìn)行填補(bǔ)。對(duì)于難以合并的、訪問模式獨(dú)立的數(shù)組,可以對(duì)數(shù)組的數(shù)據(jù)分布進(jìn)行調(diào)整。比如,在地震模擬應(yīng)用中,在主存中開辟出額外的存儲(chǔ)空間,用于存儲(chǔ)每個(gè)進(jìn)程需要訪問的劃分后的包含halo區(qū)的數(shù)組部分,這樣可以保證DMA操作的連續(xù)性,減少內(nèi)存訪問操作的頻率。數(shù)據(jù)結(jié)構(gòu)的調(diào)整可以有效解決稀疏問題的細(xì)粒度訪存問題,提升稀疏型應(yīng)用在申威架構(gòu)下的訪存帶寬。(3)充分運(yùn)用從核間通信從核間高效的寄存器通信接口為數(shù)據(jù)通信和共享提供了有效的方法。寄存器通信的時(shí)延為7~11個(gè)時(shí)鐘周期,遠(yuǎn)小于DMA (超過25個(gè)時(shí)鐘周期)和全局存取(超過600個(gè)時(shí)鐘周期)的開銷。因此,一個(gè)通用的方法是將從核LDM中或寄存器中的數(shù)據(jù)通過寄存器通信發(fā)送給其他從核,實(shí)現(xiàn)數(shù)據(jù)共享,減少對(duì)全局內(nèi)存的訪問頻率。寄存器通信的編程模式給開發(fā)者帶來(lái)了挑戰(zhàn)。由于實(shí)際應(yīng)用中可能存在復(fù)雜的核間通信和同步關(guān)系,阻塞式的通信接口會(huì)顯著增加程序設(shè)計(jì)的難度,開發(fā)者需要謹(jǐn)慎考慮核間數(shù)據(jù)傳輸關(guān)系,排除死鎖的可能性。由于從核接收緩沖區(qū)大小有限,如果發(fā)送從核(即發(fā)送數(shù)據(jù)的從核)傳送的數(shù)據(jù)規(guī)模較大,則需要保證目標(biāo)從核在自身阻塞前能夠完成接收,否則可能出現(xiàn)級(jí)聯(lián)阻塞現(xiàn)象。另外,在多發(fā)送者-單接收者的模式下,可能會(huì)存在數(shù)據(jù)亂序的問題,需要額外考慮程序的正確性。這些都給程序設(shè)計(jì)和優(yōu)化帶來(lái)了很大難度。(4)SIMD向量化的使用單指令多數(shù)據(jù)流(single instruction multiple data,SIMD)是SW26010的一個(gè)擴(kuò)展的功能模塊。SW26010提供了256位的寄存器,每個(gè)寄存器可以存放8個(gè)整型數(shù)或4個(gè)浮點(diǎn)數(shù)。使用這些寄存器進(jìn)行向量化運(yùn)算,可以達(dá)到一條指令得到多個(gè)結(jié)果的效果。SIMD從源操作數(shù)的數(shù)組空間將數(shù)據(jù)裝載到256位SIMD寄存器,并通過SIMD運(yùn)算指令完成計(jì)算,最后將結(jié)果存儲(chǔ)到目標(biāo)操作數(shù)的數(shù)組空間。SIMD不僅降低了功耗,而且顯著提高了性能,定點(diǎn)和浮點(diǎn)的理論峰值性能為單部件的8倍或4倍。循環(huán)展開(loop unwinding)作為一種犧牲程序的尺寸來(lái)加快程序的執(zhí)行速度的優(yōu)化方法,可以由程序員完成,也可由編譯器自動(dòng)優(yōu)化完成。對(duì)于擁有多個(gè)計(jì)算部件的SW26010,SIMD可以被看作一種指令形式的循環(huán)展開,SIMD向量化寄存器為多個(gè)運(yùn)算器提供了指令級(jí)并行。SW26010編譯器提供了簡(jiǎn)潔的SIMD編程指令來(lái)顯式地開發(fā)指令級(jí)并行,開發(fā)者不再需要對(duì)代碼進(jìn)行手動(dòng)展開或依賴編譯器的自動(dòng)優(yōu)化。向量化為申威架構(gòu)下的程序提供了巨大的性能機(jī)遇,但其實(shí)際應(yīng)用存在一些困難。向量化適用于連續(xù)型數(shù)據(jù)訪問和運(yùn)算,對(duì)于非連續(xù)型(如AOS類型)數(shù)據(jù),其裝載和存儲(chǔ)過程帶來(lái)的開銷可能超過計(jì)算優(yōu)化本身帶來(lái)的收益。因此,開發(fā)者應(yīng)當(dāng)注意SIMD使用的可行性,要合理使用向量化,需要時(shí)可對(duì)數(shù)據(jù)排布進(jìn)行調(diào)整。例如,分子動(dòng)力學(xué)應(yīng)用需要按前文所述的方法將數(shù)據(jù)轉(zhuǎn)化為AOS形式的粒子數(shù)據(jù)包,以最大限度地提升DMA性能。但這種AOS形式的數(shù)據(jù)并不適合向量化。為此,對(duì)于局部獲取的數(shù)據(jù),需要進(jìn)行類似矩陣轉(zhuǎn)置的轉(zhuǎn)化,使得相同數(shù)組的元素在存儲(chǔ)空間中連續(xù),如圖3所示,將一個(gè)粒子包內(nèi)的數(shù)據(jù)轉(zhuǎn)化為每種元素連續(xù)的形式,這樣可以用向量寄存器存儲(chǔ),并開展計(jì)算。這種轉(zhuǎn)換操作可以使用SW26010支持的指令(如simd_vshulff)高效地完成。參考中的一個(gè)粒子數(shù)據(jù)包包含4個(gè)粒子的數(shù)據(jù),轉(zhuǎn)換完成后的數(shù)據(jù)剛好按照4個(gè)浮點(diǎn)數(shù)對(duì)齊,放在一個(gè)4浮點(diǎn)數(shù)向量寄存器內(nèi)。圖3???分子動(dòng)力學(xué)中的數(shù)據(jù)布局變換

4 大規(guī)模稀疏計(jì)算問題的性能優(yōu)化實(shí)踐

4.1 高分辨率大氣模擬中的隱式求解

大規(guī)模大氣動(dòng)力模擬對(duì)于天氣預(yù)報(bào)和預(yù)測(cè)氣象災(zāi)害有重大意義,該領(lǐng)域的應(yīng)用往往涉及對(duì)大規(guī)模網(wǎng)格的計(jì)算和求解。此前,國(guó)內(nèi)相關(guān)研究實(shí)現(xiàn)了基于CPU-GPU和CPU-MIC加速的顯式時(shí)步全球淺水波(shallow water)模式,它們分別在天河-1A和天河2號(hào)上取得了800 TFlops和1.63 PFlops的性能,擴(kuò)展到半系統(tǒng)級(jí)別。此后,以上工作被擴(kuò)展到3-D非靜力模式,在天河2號(hào)上取得8%的峰值浮點(diǎn)運(yùn)算效率。然而,這些工作只關(guān)注了顯式求解過程,在高分辨率的大氣模擬中,傳統(tǒng)的大氣動(dòng)力學(xué)方程顯式求解方法面臨計(jì)算步長(zhǎng)過小的問題,因此隱式求解成為可能的解決方法。但隱式求解方法又面臨收斂性和稀疏線性方程組求解低效的問題,如何在隱式求解算法上開發(fā)千萬(wàn)核并行是待解決的問題。三維非靜力大氣模擬過程主要涉及對(duì)完全可壓縮歐拉方程的求解。在超大規(guī)模方程組求解中如何保證魯棒性較強(qiáng)的收斂率是一個(gè)問題,為此,淺層區(qū)域分解多重網(wǎng)格(domain decomposition-multigrid, DD-MG)算法被提出。圖4展示了一個(gè)3層的DD-MG算法,在每個(gè)k-cycle的MG層級(jí),一層RAS方法被作為區(qū)域分解的預(yù)條件,從而在處理器層級(jí)最大限度地開發(fā)并行性。DD-MG算法保證了求解過程的收斂性,同時(shí),作為一種粗粒度的并行,其保證了核組間的負(fù)載均衡。圖4???DD-MG算法示意圖大規(guī)模隱式方程求解的性能取決于局部求解的性能,為此,參考提出并實(shí)現(xiàn)了高局部性、細(xì)粒度和無(wú)同步的本地求解器。對(duì)于指定的重疊子區(qū)域,基于低秩的7點(diǎn)空間偏導(dǎo)構(gòu)建近似的雅可比矩陣,并在每個(gè)網(wǎng)格點(diǎn)中對(duì)未知數(shù)進(jìn)行排序。該過程不破壞原有矩陣物理成分的聯(lián)系。在DD-MG的框架下,可以用不完全LU(incomplete LU,ILU)分解方法對(duì)子區(qū)域開展求解。傳統(tǒng)的LU分解由于矩陣非零元的相互依賴和可能的不規(guī)則分布,很難有效通過并行算法進(jìn)行求解。為此,在適用于眾核架構(gòu)的并行ILU(parallel incomplete LU,PILU)方法的基礎(chǔ)上進(jìn)行改進(jìn),幾何流水化ILU(geometrybased pipelined incomplete LU,GPILU)算法被提出,這種方法在保持?jǐn)?shù)據(jù)依賴關(guān)系的基礎(chǔ)上很大程度地開發(fā)了片上并行性。在整體算法實(shí)現(xiàn)上,參考文獻(xiàn)在處理器、線程及指令層級(jí)上開展了不同程度的優(yōu)化,在隱式求解器的關(guān)鍵運(yùn)算核心上取得了有效的性能提升。考慮到SW26010的特性,參考針對(duì)不同計(jì)算核心提出了3種不同的劃分策略,如圖5所示。這里假設(shè)主存內(nèi)的三維AOS數(shù)據(jù)按照z-x-y的維度順序存儲(chǔ), core(i,j)表示處理器陣列中第i行第j列的從核。右端相關(guān)運(yùn)算核心中,相應(yīng)的模板計(jì)算有13個(gè)依賴點(diǎn),整個(gè)求解區(qū)域被分為內(nèi)部區(qū)域(inner)和halo區(qū),halo區(qū)是不同節(jié)點(diǎn)計(jì)算區(qū)域的鄰接部分,由頂部、底部和東西南北6個(gè)面組成,這些部分都涉及數(shù)據(jù)通信。不需要通信的內(nèi)部區(qū)域采用2.5D分塊與雙緩沖策略結(jié)合的方法,如圖5(a)所示,分塊大小由LDM大小、向量化程度、雙緩沖占用率和DMA效率綜合考慮決定,最終采用4×4的大小。MAT運(yùn)算核心沒有halo區(qū),因此沿軸按“柱”方向進(jìn)行1D分塊,如圖5(b)所示。這里的分塊大小應(yīng)當(dāng)是4的倍數(shù),以方便向量化。ILU核心實(shí)現(xiàn)了線程間和線程內(nèi)部的并行,分塊方式如圖5(c)所示。在xy平面上,分塊把整個(gè)求解區(qū)域劃分成8×8的子區(qū)域,每個(gè)子區(qū)域中沿z軸的一“柱”剛好對(duì)應(yīng)8×8=64個(gè)SW26010處理器眾核。在這種粒度的劃分下,求解流水線開始/結(jié)束時(shí)從核間的負(fù)載不均衡可以被最小化,水平和豎直方向上的兩層流水線可以高效地工作。類似地,前代/回代過程(下三角/上三角矩陣求解)采取類似的劃分方法。圖5???針對(duì)不同運(yùn)算核心的數(shù)據(jù)劃分策略在2.5D分塊中,每個(gè)從核對(duì)內(nèi)存的訪問存在一定間隔,導(dǎo)致內(nèi)存帶寬的不充分利用。一種利用寄存器通信的在線數(shù)據(jù)共享方法可以有效解決該問題。如圖6所示,該方法將4個(gè)從核分為一組,通過3個(gè)步驟完成數(shù)據(jù)共享,在第一步分解操作中,對(duì)于求解的內(nèi)部區(qū)域,組內(nèi)的從核從內(nèi)存讀入計(jì)算區(qū)域和兩層halo區(qū),共4×4+2×2=20個(gè)元素的數(shù)據(jù);在第二步復(fù)制操作中,每個(gè)核上對(duì)應(yīng)的數(shù)據(jù)區(qū)域被擴(kuò)展,開辟冗余的halo區(qū),從而形成4×(4+2×2)=32個(gè)元素區(qū)域;在第三步交換操作中通過快速的寄存器通信在從核間傳遞計(jì)算所需數(shù)據(jù),這種數(shù)據(jù)交換不涉及LDM與內(nèi)存的數(shù)據(jù)傳輸,減輕了內(nèi)存帶寬的負(fù)擔(dān)。圖6中的4個(gè)從核通過3個(gè)步驟完成數(shù)據(jù)交換,每一步之后都需要進(jìn)行同步。一般來(lái)說(shuō),增加每組包含的從核個(gè)數(shù)可以顯著地提升數(shù)據(jù)重用效率,但相應(yīng)的同步開銷會(huì)增大。實(shí)驗(yàn)表明, 4個(gè)從核分為一組最好地平衡了兩者。圖6???在線數(shù)據(jù)共享方法過程為了更好地實(shí)現(xiàn)向量化,參考中實(shí)現(xiàn)了高效的AOS和SOA轉(zhuǎn)換接口。這里使用SW26010的shuffle指令,可以在十幾個(gè)時(shí)鐘周期內(nèi)將結(jié)構(gòu)內(nèi)的AOS數(shù)據(jù)裝載到256位向量寄存器中。另外,部分?jǐn)?shù)據(jù)操作(如BLAS-1向量更新和halo區(qū)交換)需要在SW26010上得到實(shí)現(xiàn)和優(yōu)化。基于申威架構(gòu)的xMath數(shù)學(xué)運(yùn)算加速庫(kù)是為了高性能數(shù)學(xué)運(yùn)算開發(fā)的,提供了BLAS、LAPACK和FFT操作接口。調(diào)用該庫(kù)并添加一些手動(dòng)優(yōu)化,可以在BLAS-1向量操作上取得20倍以上的加速。以上提及的完全隱式方程求解器應(yīng)用已被成功地?cái)U(kuò)展到整個(gè)“神威·太湖之光”超級(jí)計(jì)算機(jī)的超過100萬(wàn)個(gè)的異構(gòu)眾核上,在雙精度求解下性能達(dá)到了7.95 PFlops。實(shí)驗(yàn)中,在488 m水平分辨率(超過7 700億個(gè)非零元)條件下,該應(yīng)用依然能夠?qū)崿F(xiàn)快速而精確的大氣模擬,成為世界上較大規(guī)模的完全隱式模擬之一。

4.2 非線性大地震模擬中的顯式求解

我國(guó)是受地震災(zāi)害影響嚴(yán)重的國(guó)家,分布有23條地震帶,7度以上的高烈度區(qū)域約占國(guó)土面積的50%。對(duì)地震的模擬和預(yù)測(cè)可以有效減少地震災(zāi)害帶來(lái)的損失。很多與地震模擬相關(guān)的應(yīng)用已經(jīng)開始在大規(guī)模并行計(jì)算機(jī)系統(tǒng)上尋找答案,以開源軟件AWP-ODC(anelastic wave propagation by Olsen,Day and Cui)為例,該軟件自2008年起開始推進(jìn)在千兆級(jí)計(jì)算機(jī)系統(tǒng)上的應(yīng)用,2016年該應(yīng)用完成了對(duì)非線性效應(yīng)模擬的支持,并在“泰坦”超級(jí)計(jì)算機(jī)上取得1.6 PFlops的性能,擴(kuò)展到半系統(tǒng)級(jí)別。由于計(jì)算過程中每個(gè)網(wǎng)格點(diǎn)都需要對(duì)超過20個(gè)變量進(jìn)行讀寫,傳統(tǒng)的分塊策略并不適用。為此,參考提出了一種自定義的多級(jí)計(jì)算區(qū)域分解策略(如圖7所示),包括MPI分解、CG核組分塊劃分和CPE從核分塊劃分。在LDM空間利用策略的計(jì)算過程中,計(jì)算區(qū)域和完成區(qū)域不斷向前推進(jìn),未完成區(qū)域逐漸縮小,緩沖區(qū)域用來(lái)存儲(chǔ)計(jì)算所需的鄰接區(qū)。這里假設(shè)主存內(nèi)的三維AOS數(shù)據(jù)按照z-x-y的維度順序存儲(chǔ),該方法先沿著xy平面對(duì)求解區(qū)域進(jìn)行2D劃分,并分配到每個(gè)MPI進(jìn)程中。這是由于在該應(yīng)用中豎直(z軸)方向的長(zhǎng)度要遠(yuǎn)小于水平(x軸和y軸)方向的長(zhǎng)度,這種劃分方法可以有效減少M(fèi)PI進(jìn)程間的通信量。第二層沿著zy平面進(jìn)行塊劃分,并將該層的每個(gè)塊分配給一個(gè)核組。最終,第三層依然沿著zy平面把核組中的塊劃分成數(shù)個(gè)不同的區(qū)域,將每個(gè)區(qū)域分配給一個(gè)SW26010處理器從核,每個(gè)從核線程沿著x軸方向開展迭代,從而確保快速訪問內(nèi)存。考慮到每個(gè)LDM空間大小有限,每個(gè)從核一次通過DMA載入適當(dāng)大小的計(jì)算區(qū)域,包括內(nèi)部計(jì)算區(qū)域和halo區(qū)。隨著計(jì)算的進(jìn)行,從核緩存區(qū)域會(huì)沿x軸方向向后推進(jìn)。DMA被設(shè)置為異步的,以達(dá)到與計(jì)算重疊的效果。這里各層級(jí)的分塊大小可以根據(jù)問題規(guī)模、LDM空間大小及單個(gè)網(wǎng)格點(diǎn)的變量數(shù)目等因素動(dòng)態(tài)計(jì)算得出,實(shí)際應(yīng)用中采取計(jì)算分析得到的最優(yōu)值。圖7???非線性大地震模擬中的多級(jí)區(qū)域劃分策略為了在同樣的內(nèi)存帶寬和存儲(chǔ)空間大小的限制條件下取得更高的性能,參考文獻(xiàn)還提出一種有損壓縮策略,有效解決了在線壓縮和解壓縮開銷與整體應(yīng)用有效性能提升的矛盾,也有效保證了應(yīng)用的工程計(jì)算精度。如圖8所示,每個(gè)參與計(jì)算的從核(CPE)先從主核內(nèi)存,也就是主存中通過DMA讀操作(dma_get)將壓縮后的16位數(shù)據(jù)讀入LDM,并解壓縮為32位數(shù)據(jù),然后進(jìn)行32位數(shù)據(jù)上的實(shí)際計(jì)算,并將計(jì)算結(jié)果重新由32位壓縮為16位的數(shù)據(jù),通過DMA寫操作(dma_put)存入內(nèi)存。圖8???有損壓縮工作流程圖9展示了3種不同的有損壓縮方法,其中用sign exp表示指數(shù),frac表示尾數(shù)。計(jì)算所用數(shù)據(jù)在壓縮前固定為32位浮點(diǎn)數(shù),壓縮后的16位數(shù)據(jù)可以采取不同的表示方法。方法1進(jìn)行IEEE 754標(biāo)準(zhǔn)32位到16位浮點(diǎn)數(shù)的轉(zhuǎn)化,直接將壓縮后的數(shù)據(jù)定義為IEEE 754標(biāo)準(zhǔn)的半精度浮點(diǎn)數(shù),包含固定的5位指數(shù)和10位尾數(shù)。編譯器內(nèi)置的對(duì)半精度浮點(diǎn)數(shù)的支持使得壓縮前后的數(shù)據(jù)轉(zhuǎn)換效率很高,但由于指數(shù)位數(shù)少,數(shù)值分布范圍較大的變量可能出現(xiàn)溢出,進(jìn)而引入數(shù)值精度問題。而對(duì)于數(shù)值分布范圍很小的變量而言,5位的指數(shù)可能是一種浪費(fèi)。針對(duì)這一問題,方法2使用動(dòng)態(tài)方法定義指數(shù)位數(shù)。對(duì)于每個(gè)參與計(jì)算的變量,計(jì)算其一定范圍內(nèi)的數(shù)值范圍分布,并根據(jù)范圍動(dòng)態(tài)分配不同變量壓縮后的指數(shù)位數(shù),在保證能覆蓋大范圍指數(shù)分布的同時(shí),也能為小范圍數(shù)值分布的變量保留更多的尾數(shù)位數(shù)。但這一方法的轉(zhuǎn)換效率和計(jì)算效率較低。方法3被用于模擬程序速度和壓力變量的壓縮,它將數(shù)組中的元素規(guī)格化到1和2之間,并采用16位定點(diǎn)小數(shù)的表示方法。這種方法平衡了性能和精度,因此在實(shí)際應(yīng)用中具有最好的效果。在地震波傳播核心部分采用有損壓縮策略,最終能取得約24%的性能提升。圖9???3種不同的有損壓縮方法該地震模擬應(yīng)用經(jīng)過以上優(yōu)化,可以在“神威·太湖之光”超級(jí)計(jì)算機(jī)上達(dá)到超過15%的系統(tǒng)峰值性能,超過了類似應(yīng)用在“泰坦”超級(jí)計(jì)算機(jī)上的表現(xiàn)(11.8%),且其具有強(qiáng)可擴(kuò)展性,幾乎可以線性擴(kuò)展到全機(jī)上千萬(wàn)核。在18 H z、8 m分辨率的超大規(guī)模地震模擬中,該應(yīng)用可以達(dá)到18.9 PLlops的持續(xù)性能。

4.3 “神圖”圖計(jì)算框架

圖是數(shù)值科學(xué)領(lǐng)域應(yīng)用頻繁的概念之一,隨著大數(shù)據(jù)處理問題規(guī)模的增大,圖數(shù)據(jù)結(jié)構(gòu)的大小也相應(yīng)增大,需要高效可擴(kuò)展的圖處理系統(tǒng)來(lái)解決圖計(jì)算問題。比如,人類基因研究目前需要對(duì)擁有超過50億個(gè)點(diǎn)/邊的布魯因圖(de Bruijn graph)進(jìn)行處理,類似地,人腦建模分析要考慮超過1 000億個(gè)神經(jīng)元以及每個(gè)神經(jīng)元的平均7 000個(gè)突觸連接。圖計(jì)算是典型的大數(shù)據(jù)稀疏處理類問題,浮點(diǎn)運(yùn)算少,訪存隨機(jī)性大,對(duì)數(shù)據(jù)存儲(chǔ)和管理提出了很高要求。同時(shí),冪律分布造成通信和計(jì)算負(fù)載不均衡,對(duì)于復(fù)雜圖而言,計(jì)算過程中存在大量的核間和節(jié)點(diǎn)間通信,通信次數(shù)多,通信量少,非常低效,給系統(tǒng)的效率和可擴(kuò)展性提出了巨大挑戰(zhàn)。“神圖”是首個(gè)運(yùn)用千兆級(jí)系統(tǒng)解決百萬(wàn)規(guī)模圖處理問題的通用框架。針對(duì)申威處理器的異構(gòu)特性,“神圖”在不同層級(jí)對(duì)硬件功能進(jìn)行劃分。在粗粒度的層級(jí)上,每4個(gè)核組被分為一個(gè)節(jié)點(diǎn),分別具備4種不同的功能:一是生成,讀入當(dāng)前組分配的節(jié)點(diǎn)數(shù)據(jù),識(shí)別待處理圖中的“活躍”點(diǎn),并生成通信消息;二是轉(zhuǎn)發(fā),路由聚合后的消息,提供高吞吐率的組間通信;三是粗排序,實(shí)行第一階段的初步桶排序,每個(gè)桶可以適應(yīng)性地放入從核LDM中,為下一階段做準(zhǔn)備;四是更新,圖處理過程的最后一步,對(duì)每個(gè)桶進(jìn)行排序,并更新目標(biāo)節(jié)點(diǎn)。“神圖”引入了超節(jié)點(diǎn)和處理器上的兩級(jí)路由機(jī)制與高效的專用數(shù)據(jù)排序策略。超節(jié)點(diǎn)路由方法解決了小型消息過多及通信節(jié)點(diǎn)對(duì)過多帶來(lái)的通信開銷問題。“神圖”將數(shù)個(gè)節(jié)點(diǎn)劃分為一個(gè)組,數(shù)個(gè)組屬于一個(gè)超級(jí)節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)將屬于相同目標(biāo)組的通信消息聚合為一條,發(fā)送給相應(yīng)組內(nèi)的一個(gè)節(jié)點(diǎn)。該節(jié)點(diǎn)中負(fù)責(zé)轉(zhuǎn)發(fā)的核組會(huì)將消息解包并發(fā)送給其他核組。圖10展示了超節(jié)點(diǎn)多級(jí)路由的工作過程,超節(jié)點(diǎn)中的一組包含4個(gè)核組,超節(jié)點(diǎn)X中A節(jié)點(diǎn)作為生成節(jié)點(diǎn),發(fā)送消息給超節(jié)點(diǎn)Y中的排序和更新節(jié)點(diǎn)C,中途通過超節(jié)點(diǎn)Y中的轉(zhuǎn)發(fā)節(jié)點(diǎn)B進(jìn)行轉(zhuǎn)發(fā)。大部分圖計(jì)算應(yīng)用受限于內(nèi)存帶寬,細(xì)粒度的隨機(jī)內(nèi)存訪問會(huì)對(duì)性能造成影響。為此,“神圖”提出了一種片上排序的方法。圖10中節(jié)點(diǎn)C可能會(huì)按隨機(jī)順序接收?qǐng)D中節(jié)點(diǎn)更新的消息,片上排序把更新消息的不同目標(biāo)點(diǎn)進(jìn)行劃分和排序,同時(shí)合并對(duì)相同目標(biāo)點(diǎn)進(jìn)行更新的消息,顯著減少了內(nèi)存總線負(fù)載和同步開銷。如圖11所示,每個(gè)用于排序的核組中的眾核又被分為3類:p為消費(fèi)者,負(fù)責(zé)讀入數(shù)據(jù);r為路由者,負(fù)責(zé)傳遞數(shù)據(jù);c為消費(fèi)者,負(fù)責(zé)使用數(shù)據(jù)進(jìn)行計(jì)算,剩下的從核被用于其他任務(wù)。初始輸入是無(wú)序輸入,經(jīng)過兩步片上洗牌操作,數(shù)據(jù)變?yōu)橛行?#xff0c;可開展后續(xù)處理。核組3完成第一階段的初步桶排序操作,把數(shù)據(jù)放在不同的桶中,使數(shù)據(jù)成為半有序狀態(tài),核組4利用其結(jié)果完成對(duì)整個(gè)數(shù)據(jù)的排序。圖10???“神圖”的超節(jié)點(diǎn)多級(jí)路由圖11???片上排序過程在真實(shí)應(yīng)用的圖中,點(diǎn)的入度/出度往往呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。在分布式圖處理系統(tǒng)中,度數(shù)高的點(diǎn)會(huì)產(chǎn)生大量的數(shù)據(jù)通信,涉及系統(tǒng)中的大部分節(jié)點(diǎn),給通信網(wǎng)絡(luò)帶來(lái)巨大負(fù)載。“神圖”將這種度數(shù)高的點(diǎn)復(fù)制到每一個(gè)計(jì)算節(jié)點(diǎn)中,原本負(fù)責(zé)該點(diǎn)的計(jì)算節(jié)點(diǎn)存儲(chǔ)的是原件,其他計(jì)算節(jié)點(diǎn)存儲(chǔ)的是鏡像。高出度的點(diǎn)需要向外發(fā)送的消息很多,為了避免大規(guī)模地發(fā)送更新消息,每一個(gè)計(jì)算節(jié)點(diǎn)通過簡(jiǎn)單的MPI_Bcast接口協(xié)作更新所有鏡像,再根據(jù)鏡像來(lái)更新其對(duì)本地點(diǎn)的影響。對(duì)于高入度的點(diǎn),“神圖”采用類似的方法,計(jì)算節(jié)點(diǎn)先對(duì)本地鏡像進(jìn)行更新,最后使用MPI_Gather或MPI_Reduce接口更新原件。這種與節(jié)點(diǎn)度相關(guān)的通信優(yōu)化模式顯著減少了通信量,減輕了并行系統(tǒng)互聯(lián)網(wǎng)絡(luò)的壓力;同時(shí),鏡像的存在將高度數(shù)點(diǎn)的處理工作平均分配給每一個(gè)計(jì)算節(jié)點(diǎn),均衡了系統(tǒng)負(fù)載。“神圖”圖計(jì)算框架可在分鐘級(jí)完成對(duì)搜狗中文網(wǎng)頁(yè)圖的處理,每次迭代僅需8.5 s,解決了過去由于機(jī)器規(guī)模和計(jì)算框架限制而無(wú)法解決的問題。

5 結(jié)束語(yǔ)

目前超算發(fā)展進(jìn)入E級(jí)階段,新的超大規(guī)模異構(gòu)并行計(jì)算機(jī)在解決富有挑戰(zhàn)性的計(jì)算問題方面的潛力是值得期待的。異構(gòu)眾核并行系統(tǒng)的設(shè)計(jì)已經(jīng)成為高端超算系統(tǒng)的重要構(gòu)建方式。但其給大規(guī)模稀疏處理問題帶來(lái)了挑戰(zhàn)。稀疏問題具有非規(guī)則的計(jì)算與訪存特征,對(duì)并行應(yīng)用的存儲(chǔ)管理、負(fù)載均衡、數(shù)據(jù)通信等提出了更高的要求,需要開發(fā)者依據(jù)軟硬件特點(diǎn)開展設(shè)計(jì)和優(yōu)化,兼顧性能、成本、功耗等多方面的約束。異構(gòu)眾核系統(tǒng)的架構(gòu)設(shè)計(jì)具有巨大的性能潛力,但也給應(yīng)用實(shí)現(xiàn)和優(yōu)化帶來(lái)更高的難度。本文總結(jié)了基于“神威·太湖之光”超級(jí)計(jì)算機(jī)的大規(guī)模隱式/顯式求解器和“神圖”圖計(jì)算框架的性能優(yōu)化經(jīng)驗(yàn),涵蓋任務(wù)劃分、存儲(chǔ)訪問、數(shù)據(jù)壓縮、數(shù)據(jù)共享與通信等多方面,為新一代異構(gòu)眾核計(jì)算系統(tǒng)的稀疏問題求解提供了借鑒。實(shí)際上,基于異構(gòu)眾核架構(gòu)的大規(guī)模計(jì)算問題的求解和優(yōu)化案例還有很多,在應(yīng)用和算法設(shè)計(jì)層面,動(dòng)態(tài)稀疏問題的高效求解算法設(shè)計(jì)依然是急需解決的問題。同時(shí),許多實(shí)際科學(xué)與工程問題中的大規(guī)模應(yīng)用性能優(yōu)化方法還期待著更多的開發(fā)者投入研究。

作者簡(jiǎn)介

胡正丁(1997-),男,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系碩士生,主要研究方向?yàn)楦咝阅苡?jì)算 。

薛巍(1974-),男,博士,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授,高性能計(jì)算研究所所長(zhǎng),中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員,主要研究方向?yàn)榇笠?guī)模科學(xué)計(jì)算、量化不確定分析 。

往期文章回顧

《大數(shù)據(jù)》2020年第4期目次&摘要

專題導(dǎo)讀:大數(shù)據(jù)異構(gòu)并行系統(tǒng)

GPU事務(wù)性內(nèi)存技術(shù)研究

大規(guī)模異構(gòu)數(shù)據(jù)并行處理系統(tǒng)的設(shè)計(jì)、實(shí)現(xiàn)與實(shí)踐

面向大數(shù)據(jù)異構(gòu)系統(tǒng)的神威并行存儲(chǔ)系統(tǒng)


聯(lián)系我們:

Tel:010-81055448

? ? ? ?010-81055490

? ? ? ?010-81055534

E-mail:bdr@bjxintong.com.cn?

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

轉(zhuǎn)載、合作:010-81055537

大數(shù)據(jù)期刊

《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國(guó)工業(yè)和信息化部主管,人民郵電出版社主辦,中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的期刊,已成功入選中文科技核心期刊、中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)刊、中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦中文科技期刊,并被評(píng)為2018年國(guó)家哲學(xué)社會(huì)科學(xué)文獻(xiàn)中心學(xué)術(shù)期刊數(shù)據(jù)庫(kù)“綜合性人文社會(huì)科學(xué)”學(xué)科最受歡迎期刊。

關(guān)注《大數(shù)據(jù)》期刊微信公眾號(hào),獲取更多內(nèi)容

總結(jié)

以上是生活随笔為你收集整理的随机生成稀疏矩阵_面向异构众核超级计算机的大规模稀疏计算性能优化研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

亚洲片在线观看 | 国产色影院 | 丁香色天天 | 国产精品欧美久久久久天天影视 | 精品在线一区二区 | 日韩精品免费一区二区在线观看 | 国产精品久久久久久吹潮天美传媒 | www久久久| 欧美精品久久人人躁人人爽 | 亚洲精品视频免费在线观看 | 国内精品久久久久久久影视简单 | 国产一区精品在线 | 国产精品女 | 97**国产露脸精品国产 | 亚洲精品美女在线观看播放 | 国产精品一区二区在线播放 | 色噜噜狠狠狠狠色综合久不 | 美女精品 | 97色在线视频 | 区一区二区三区中文字幕 | 天天爱av导航 | 中文字幕在线观看视频一区 | 国产一区二区在线免费播放 | av资源中文字幕 | 日韩精品一区在线播放 | 久久久2o19精品 | 五月天综合激情 | 精品国产一区二区三区四区在线观看 | 国产黄在线 | 亚洲无人区小视频 | 狠狠伊人| 免费看三级 | 99久久精品网 | 人人视频网站 | 日日操日日| 亚洲精选在线 | 国产高清日韩 | 色a综合| 国产在线播放一区 | 国产一级在线免费观看 | 五月天视频网站 | 国产成人综合图片 | 日日日操操 | 国产香蕉97碰碰久久人人 | 国产麻豆成人传媒免费观看 | 亚洲三级毛片 | 99久久精品国产亚洲 | 一区二区三区电影 | 日本69hd| 一区二区三区在线播放 | 欧美激情综合五月色丁香 | 97超碰人人看 | av免费片| 日韩精品最新在线观看 | 中文字幕第 | 久久任你操 | www久草| 五月天电影免费在线观看一区 | www免费黄色 | 色综合天天做天天爱 | 久久久久这里只有精品 | 亚洲四虎在线 | 国产黄色精品 | 亚洲 欧洲 国产 日本 综合 | 中文字幕免费不卡视频 | 天天射综合 | 午夜精品久久久久久久久久 | 日女人电影 | 亚洲视频在线免费观看 | 国产成人精品午夜在线播放 | 男女拍拍免费视频 | 久久综合九色综合97婷婷女人 | 久日精品 | 婷婷九月丁香 | 欧美精品久久久久久久久久 | 97在线精品国自产拍中文 | 成人午夜剧场在线观看 | 亚洲人成在线观看 | 午夜三级在线 | 丁香婷婷网 | 2019天天干夜夜操 | 97在线免费视频观看 | 91视频在线免费 | 久久这里只有精品久久 | 久久久亚洲影院 | 高清不卡毛片 | 久久人人爽人人爽人人片av软件 | 波多野结衣一区二区三区中文字幕 | 91黄色免费看 | 久久男人中文字幕资源站 | 欧美一区在线观看视频 | 999久久久久 | 精品在线免费视频 | 国产精品va最新国产精品视频 | 欧美福利视频一区 | 免费在线观看一级片 | 久久婷婷一区 | 91欧美在线| 久久国产精品成人免费浪潮 | 免费aa大片 | 久草视频首页 | 欧美不卡视频在线 | 亚洲视频在线免费看 | 婷香五月 | 久久精品视频在线免费观看 | 精品夜夜嗨av一区二区三区 | 9热精品| 国产精品igao视频网入口 | 国产在线播放一区二区三区 | 国内精品久久久久影院一蜜桃 | 亚洲一区二区视频 | 国产在线更新 | 五月婷婷色| 精品国产伦一区二区三区观看说明 | 日本黄色特级片 | 免费国产在线精品 | 日精品在线观看 | 日本激情中文字幕 | 91精品高清| 97天天干| 中文免费在线观看 | 国产精品永久久久久久久久久 | 亚洲国产影院av久久久久 | 综合网欧美 | 天天爽天天碰狠狠添 | 六月丁香综合 | 二区视频在线观看 | 亚洲一级二级三级 | 精品国产大片 | 国产区精品在线观看 | 五月天精品视频 | 成人国产一区 | 中文字幕 欧美性 | 摸bbb搡bbb搡bbbb | 一区二区三区手机在线观看 | 久久久麻豆视频 | 精品一二三区 | 国产精品视频内 | 免费在线观看不卡av | 99视频网址 | 亚洲精品国产综合99久久夜夜嗨 | 日本中文乱码卡一卡二新区 | 麻豆91精品91久久久 | 999久久久免费视频 午夜国产在线观看 | 欧美在线视频一区二区 | 亚洲精品国产精品国自产 | 国产黄色大片 | 精品久久精品 | 亚洲成人av影片 | 久久er99热精品一区二区三区 | 天天色天天干天天 | 青青草国产精品视频 | 91人人爱 | 天天干天天拍天天操天天拍 | 伊人夜夜 | av电影一区二区三区 | 91视频a| 在线91av| 最近2019中文免费高清视频观看www99 | 深爱激情婷婷网 | 国产成人一区二区三区久久精品 | 久久av中文字幕片 | 开心激情综合网 | 亚洲一区 av| 日韩激情免费视频 | 人人爱爱 | 91香蕉嫩草 | 成人国产精品一区二区 | 欧美日韩天堂 | 日韩有码欧美 | 日韩免费视频在线观看 | 午夜影院在线观看18 | 999成人网 | 麻豆高清免费国产一区 | 日韩网站中文字幕 | 亚洲精品久久久久中文字幕二区 | 99久久久久免费精品国产 | 免费在线观看av不卡 | 91丨九色丨国产女 | 综合婷婷丁香 | 久久久午夜精品理论片中文字幕 | 免费看网站在线 | 亚洲jizzjizz日本少妇 | 久久黄色精品视频 | 精品久久久免费 | av在线一 | 999久久国精品免费观看网站 | 久久精品免视看 | 国产精品18久久久久久久网站 | 亚洲成年人免费网站 | 96av在线视频 | 午夜黄色一级片 | 久久一区二区三区国产精品 | 国产一二三区av | 亚洲精品午夜一区人人爽 | 国产色视频一区 | 欧美做受69| 亚洲人视频在线 | 91视频电影 | 人成午夜视频 | 日本爱爱免费 | 玖玖爱在线观看 | 亚洲精品国产精品久久99热 | 精品亚洲网 | 黄色毛片观看 | 成人动漫精品一区二区 | 亚洲美女视频网 | 深爱开心激情 | 99精品国产在热久久下载 | 日韩精品一区二区三区在线视频 | 国产高清久久久久 | 国产精品一区二区三区电影 | 免费网站黄 | 国产一卡久久电影永久 | 久久国产精品成人免费浪潮 | 国产精品免费观看视频 | 久久有精品 | 天天综合久久 | 久久久久久国产精品美女 | 日本中文字幕电影在线免费观看 | 久久久久久久av | 亚洲不卡在线 | 91av在线视频免费观看 | 国产一区福利 | 丁香婷婷综合激情五月色 | 精品国产伦一区二区三区观看方式 | 韩国三级av在线 | 伊人狠狠 | 狠狠干网址| 成人a视频 | 日韩av图片| 97av影院 | 精品久久久网 | 一区二区成人国产精品 | 超碰97在线资源站 | 成人一级 | 97香蕉超级碰碰久久免费软件 | 国产精品av久久久久久无 | 久草影视在线观看 | 日韩精品视频免费看 | 久久久av电影 | 久久综合影音 | 免费在线电影网址大全 | 精品欧美一区二区精品久久 | 黄色特级毛片 | 91香蕉视频黄色 | 久久久亚洲影院 | 国产又粗又猛又黄 | 久久66热这里只有精品 | 亚洲精品videossex少妇 | av黄色大片 | 国产成人综合在线观看 | 一区二区成人国产精品 | 操操操操网 | 黄色aa久久 | 人人狠狠综合久久亚洲婷 | 亚洲视频 中文字幕 | 天天色天天操综合网 | 狠狠色狠狠综合久久 | 色a资源在线 | 国产精品久久久精品 | 精品国产一区二区三区四区在线观看 | 99综合电影在线视频 | 性色xxxxhd | 中文字幕国产一区 | 日韩精品在线免费播放 | 亚洲国产片 | 91手机在线看片 | www欧美色 | 在线观看欧美成人 | 久久中文视频 | 伊人热 | 婷婷视频导航 | 国产一区二区三区免费视频 | 国产麻豆视频 | 国内丰满少妇猛烈精品播 | 色是在线视频 | 国产99一区二区 | av成人免费网站 | 中文字幕91在线 | 国产精品免费久久 | 国产中文字幕视频 | 国产精品人成电影在线观看 | 99久久久国产精品免费观看 | 国产特黄色片 | 97在线视频观看 | 五月婷婷播播 | 免费成人短视频 | 色综合天天综合网国产成人网 | 国产一级片播放 | 91av在线免费播放 | 6080yy午夜一二三区久久 | 在线观看黄污 | 中文 一区二区 | 成人黄色在线 | 久产久精国产品 | 亚洲精品美女久久久久 | 黄色大片入口 | 黄色一级大片在线免费看产 | 精品久久久国产 | 久草在线观看资源 | 操操综合网 | 国产精品永久在线观看 | 探花视频在线观看免费 | 中文字幕日韩高清 | 久久夜色精品国产欧美乱极品 | 日韩精品欧美视频 | 午夜视频二区 | 91精选在线 | 69视频在线播放 | 免费日韩在线 | 蜜臀av性久久久久蜜臀aⅴ四虎 | 99这里只有精品99 | 人人超碰免费 | 69av网| 日韩天天干 | 国产做爰视频 | 成人午夜剧场在线观看 | 青草视频在线看 | 亚洲精品成人av在线 | 夜夜躁日日躁狠狠久久av | 久久九九久久九九 | 免费观看av| 久久人人97超碰国产公开结果 | 久青草国产在线 | 日本公妇在线观看高清 | 成人av资源在线 | 色偷偷网站视频 | 久草在线免费播放 | 激情五月av | 国产精品成人自产拍在线观看 | 久久tv| 久久久久一区 | 精品国产1区2区 | 亚洲国产精品电影在线观看 | 中文在线√天堂 | 99se视频在线观看 | 国产精品久久久一区二区 | 日韩电影在线观看一区二区三区 | 成人免费在线视频观看 | 18pao国产成视频永久免费 | www.com.日本一级| 久久久久免费看 | 国产视频一区在线播放 | 久久国产精品精品国产色婷婷 | 国产免费久久 | 日韩免费电影 | 丁香激情网 | 91丨精品丨蝌蚪丨白丝jk | 日韩精品一二三 | 日韩欧美一级二级 | 欧美极品久久 | 激情欧美国产 | 日韩剧 | 美女网站黄免费 | 欧美一区二区伦理片 | 玖玖精品视频 | 在线涩涩| 亚洲精品一区二区三区新线路 | 精品一区二区综合 | 亚洲成av片人久久久 | 精品欧美一区二区在线观看 | 精品国产精品国产偷麻豆 | 国产一级在线观看 | 开心激情综合网 | 国产一区二区三区高清播放 | 99久久婷婷国产综合亚洲 | 91精品国产成人观看 | 又黄又刺激视频 | 午夜婷婷综合 | 久久成人国产精品入口 | 免费看在线看www777 | 亚洲婷婷综合色高清在线 | 91福利在线观看 | 精品亚洲免费视频 | 精品国产精品久久 | 美女性爽视频国产免费app | 欧美性色xo影院 | 成年人在线免费看片 | 亚洲精品欧洲精品 | 国产玖玖精品视频 | 成人一级免费视频 | 国产色网站 | 国产精品一区二区久久国产 | 五月天久久婷婷 | 天天干人人干 | 成年美女黄网站色大片免费看 | av中文字幕免费在线观看 | 最新在线你懂的 | 99久久99久久精品国产片果冰 | 国产精品丝袜久久久久久久不卡 | 黄色毛片一级 | 天天射天天干天天操 | 偷拍福利视频一区二区三区 | 午夜.dj高清免费观看视频 | 中文字幕在线看视频 | 日韩在观看线 | av在线电影网站 | 亚洲精品高清视频在线观看 | 婷婷日 | 欧美在线观看视频一区二区三区 | 久久精品区| 国产精品视频久久 | 午夜视频免费在线观看 | 激情综合狠狠 | 久久综合色影院 | 女人高潮特级毛片 | 欧美 亚洲 另类 激情 另类 | 国产亚洲久一区二区 | 欧美福利片在线观看 | 国产丝袜高跟 | 久久这里只有精品视频99 | 波多野结衣视频一区 | 国产高清视频免费 | 精品一区二区在线观看 | 久久在线免费 | 国产资源在线免费观看 | 依人成人综合网 | 欧美极品少妇xbxb性爽爽视频 | 精品二区视频 | 国产小视频在线播放 | 国产一级二级在线观看 | 五月婷网站| 精品一区电影 | 狠色狠色综合久久 | 九九热精品在线 | 亚洲国产播放 | 成年人网站免费观看 | 激情欧美一区二区免费视频 | 国产1级视频 | 亚洲视频在线观看免费 | 亚洲成人动漫在线观看 | 亚洲国产午夜 | 久操97 | 婷婷av在线 | 亚洲高清在线 | 久久国产精品99精国产 | 天天操夜操视频 | 免费国产亚洲视频 | 日本特黄特色aaa大片免费 | 免费看黄在线观看 | 国产精品区二区三区日本 | 天天玩天天干天天操 | 欧美成人xxxxxxxx | 国产小视频在线观看 | 丁香婷婷色月天 | 五月婷婷色丁香 | 日韩在线中文字幕视频 | 国产精品午夜免费福利视频 | 久久精品国产一区二区三区 | 手机色在线 | 色综合久久久久网 | 天天色天天爱天天射综合 | 香蕉在线视频观看 | 国产精品女同一区二区三区久久夜 | 精品1区二区 | 97超碰人 | 国产精品成人自产拍在线观看 | 成人午夜网址 | 久久精品久久精品 | 波多野结衣在线观看视频 | va视频在线 | 亚洲 中文字幕av | 2021久久 | 精品国产精品久久一区免费式 | av三级av| 久久看毛片 | 不卡中文字幕av | 亚洲永久国产精品 | 久草在线最新 | 国产男女爽爽爽免费视频 | 国产96在线视频 | 国产一区二区三区高清播放 | 中文字幕在线播放一区二区 | 亚洲一级黄色 | 黄色一集片| 99久久这里有精品 | www..com毛片 | av在线播放国产 | 日韩欧美一区二区不卡 | 99这里只有久久精品视频 | 欧美xxxxx在线视频 | www.久久成人 | 国产亚洲字幕 | 亚洲国产欧美在线人成大黄瓜 | 婷婷五月在线视频 | 97超级碰 | 欧美日韩一区二区在线观看 | 国产成人福利在线观看 | 在线播放国产一区二区三区 | 午夜视频一区二区 | 国产成人免费观看久久久 | 成人免费看黄 | 青草视频在线免费 | 久久成人高清 | 成人97视频一区二区 | 2023天天干 | 国产婷婷色 | 国产高清在线不卡 | 精品色综合 | 成人免费在线观看电影 | 午夜狠狠操 | 天堂av在线中文在线 | 中文字幕 第二区 | 欧美另类色图 | 菠萝菠萝在线精品视频 | 久久精品99 | 国产精品成人久久久久久久 | 日韩欧美视频免费观看 | 国产一区二区成人 | 亚洲欧美视频 | 碰超在线97人人 | 伊人午夜视频 | 久久久精品欧美一区二区免费 | 久久人人97超碰com | 国产在线视频资源 | 国产一级黄大片 | av 一区二区三区 | 黄色片免费电影 | 狠狠操.com| 成年免费在线视频 | 偷拍精品一区二区三区 | 国产视频二区三区 | 一区二区三区在线影院 | 日韩h在线观看 | 四川妇女搡bbbb搡bbbb搡 | 五月激情电影 | 中文字幕中文字幕在线中文字幕三区 | 中文字幕视频三区 | 射射射av | 中国精品一区二区 | 婷婷国产在线观看 | 成人黄色av网站 | 波多野结衣在线观看一区二区三区 | 在线观看亚洲国产精品 | 色999精品| 深夜免费福利 | 黄色片视频免费 | 国产一级一级国产 | 国产精品中文字幕av | 区一区二区三区中文字幕 | 亚洲精品色 | 国产精品视频永久免费播放 | 激情婷婷av | 日韩高清免费无专码区 | 麻豆国产电影 | 久久女同性恋中文字幕 | 中文字幕超清在线免费 | 久久成人视屏 | 精品国产一区二区三区久久久蜜月 | 99国产在线视频 | 日日日日日 | 97超碰成人 | 99热精品视| 中文字幕日韩国产 | 日日夜夜天天久久 | 国产男女免费完整视频 | 日日干视频 | 免费看精品久久片 | 精品麻豆 | 视频一区二区视频 | 久久亚洲综合国产精品99麻豆的功能介绍 | 欧美激情奇米色 | 五月婷婷国产 | 日韩在线电影观看 | www.久久成人 | 亚洲一区二区天堂 | 日韩免费区 | www看片网站 | 四虎影视欧美 | 综合色站| 在线观看亚洲精品 | 一本一本久久a久久精品牛牛影视 | 国产黄色精品网站 | 五月天最新网址 | 美女视频国产 | avwww在线观看 | av 一区 二区 久久 | 国产免费又爽又刺激在线观看 | 就要干b| 久久五月天婷婷 | 国产精品福利在线观看 | 西西www4444大胆视频 | 五月天电影免费在线观看一区 | 国产精品24小时在线观看 | 亚洲少妇激情 | 日韩免费一级电影 | 91重口视频| 密桃av在线 | 97人人精品 | aaa免费毛片| 日韩国产高清在线 | 亚洲色图 校园春色 | 久草a在线 | 性色xxxxhd | 美女视频黄频大全免费 | 天天综合精品 | 中文日韩在线 | 丁香5月婷婷久久 | 国内亚洲精品 | 亚洲高清91 | 欧美成人免费在线 | 成人三级黄色 | 在线观看色网站 | 国产成人精品一二三区 | 中文字幕一区二区三区久久 | 成人一区二区在线 | 亚洲天天 | 91精品入口| 综合久久一本 | 在线观看岛国片 | 国产精品成人品 | www在线观看视频 | 天天躁天天操 | 久久狠狠亚洲综合 | 亚洲第一av在线播放 | 久久久在线视频 | 久久99在线视频 | 久草www| 精品亚洲免费 | 亚洲国产视频直播 | 制服丝袜天堂 | 免费av观看 | 国产精品欧美一区二区三区不卡 | 日韩在线一级 | 国产精品嫩草在线 | 国产精品一区二区久久精品 | 久久精品女人毛片国产 | 日韩视频a | 国产精品高潮久久av | 欧美精品乱码久久久久久按摩 | 婷婷色五 | 91精品国产99久久久久 | 胖bbbb搡bbbb擦bbbb | 日韩欧美国产精品 | 日韩精品一区二区在线观看 | 亚洲精品美女久久久久 | 久久久久亚洲最大xxxx | 久久99国产精品免费网站 | 91tv国产成人福利 | 狠狠狠操 | 精品久久久久久综合日本 | 麻豆视频网址 | 91成人亚洲 | 日韩电影一区二区三区 | 最新日韩中文字幕 | 九草视频在线观看 | 又黄又刺激 | 欧美日韩一区二区三区免费视频 | 天天曰天天 | 日韩理论电影在线 | 成人久久精品视频 | 国内精品久久久久久久久久久 | 视频精品一区二区三区 | 久久色亚洲 | 国产高清av免费在线观看 | 69精品 | 国产啊v在线 | 国产精品久久久久久久久久久杏吧 | 久久精品免费播放 | 色综合天天综合网国产成人网 | 成人欧美亚洲 | 国产精品一区二区av影院萌芽 | 免费看精品久久片 | 国产91亚洲| 精品99视频 | 99久久久国产精品 | 久久综合中文色婷婷 | 久久国产精品第一页 | 午夜私人影院 | 中文字幕免费高清 | 国产三级香港三韩国三级 | 婷婷久久网 | 国产午夜三级一二三区 | 久久欧洲视频 | 亚洲精品国产拍在线 | 不卡的av电影 | 成人亚洲综合 | 国产精品久久久久久久久久久不卡 | 免费日韩av片 | 久久精品国产免费观看 | 麻豆国产精品永久免费视频 | 在线午夜| 黄污视频网站大全 | 国产精品网址在线观看 | 91精品视频观看 | 国产精品乱码一区二三区 | 欧美国产高清 | 精品欧美一区二区精品久久 | 国产麻豆电影在线观看 | 一个色综合网站 | 一级片视频免费观看 | 一区二区三区在线免费 | 在线精品视频免费观看 | 丁香五月亚洲综合在线 | 欧美成人h版 | 一级一片免费看 | 成人影视片 | 久久午夜国产精品 | 五月婷婷中文 | 999毛片| 正在播放国产一区二区 | 开心激情网五月天 | 日韩欧美第二页 | www黄免费 | 天天操天天干天天干 | 99国产精品一区 | 亚洲欧美国产精品va在线观看 | 午夜色性片 | 日日添夜夜添 | 国产原创在线 | 伊人成人激情 | 探花视频免费观看高清视频 | www.黄色 | 久久国产精品视频免费看 | 久久久国产精品久久久 | www.福利视频 | 伊人精品影院 | 午夜av在线播放 | 黄色aaa级片 | 久久精品资源 | 丁香色婷 | 久久久久久亚洲精品 | 国产精品免费久久久久影院仙踪林 | 亚洲精品视频一 | 在线有码中文字幕 | 亚洲美女视频网 | 欧美精品v国产精品 | 91免费高清视频 | 日韩三级av | 亚洲性xxxx| 黄色国产精品 | av线上看 | 九色精品| a√天堂中文在线 | 91香蕉嫩草| 国产成人精品av久久 | 国产高清在线一区 | 免费看片网站91 | 日韩在线视频一区 | av在线8| 国产成人精品一区二区在线观看 | 国产玖玖在线 | 在线观看日韩精品 | 欧美精品一区二区在线观看 | 99国产在线观看 | 国产h在线播放 | 又黄又刺激 | 久久精品影视 | 91在线免费公开视频 | 久久久久亚洲精品男人的天堂 | 毛片无卡免费无播放器 | 黄色app网站在线观看 | 久久午夜网 | 国产精品不卡在线观看 | www91在线观看 | 午夜少妇一区二区三区 | www.色五月.com | 99精品在线直播 | 国产精品久久久久久久久久久免费 | 久久精品人人做人人综合老师 | 中文字幕免费一区 | 日韩黄色免费在线观看 | 免费久草视频 | 97视频免费 | 婷婷中文字幕在线观看 | 国产精品午夜在线 | 天天爱天天射 | 97超碰人人澡 | 91.麻豆视频 | 99久久综合国产精品二区 | 五月天久久婷婷 | 亚州成人av在线 | 婷婷久久网 | 亚洲另类交 | 亚洲精品mv在线观看 | 久久露脸国产精品 | 婷婷丁香av| 天天色成人 | 在线视频麻豆 | 久草在线免费看视频 | 成人app在线免费观看 | 超碰在线人人艹 | 国产精品大全 | 人人玩人人爽 | 久久久久久久久久影视 | 婷婷综合亚洲 | 91视频88av| 精品在线不卡 | 伊人午夜视频 | 久操视频在线免费看 | 亚洲国产一区在线观看 | 激情图片qvod | 伊人色**天天综合婷婷 | 午夜国产福利在线观看 | 区一区二在线 | 中文字幕一区二区三区四区久久 | 精品国产aⅴ麻豆 | 色丁香婷婷 | 99爱这里只有精品 | 一本一道久久a久久精品 | 亚洲午夜在线视频 | 夜色成人网 | 免费看污黄网站 | 欧美一二三视频 | 91探花系列在线播放 | 九九久久久久久久久激情 | 91精品视频在线免费观看 | 十八岁以下禁止观看的1000个网站 | 国产精品久久久久久久久搜平片 | 日韩久久精品一区二区三区下载 | 男女视频91 | 六月丁香激情网 | 在线观看精品一区 | 国产精品永久在线观看 | 日韩一区视频在线 | 国产一区免费在线观看 | 99av国产精品欲麻豆 | 婷婷色在线播放 | 国产精品免费在线播放 | 国内视频在线 | 国产一区高清在线观看 | 久久极品 | 亚洲第一区在线观看 | 欧美成人精品xxx | 一区二区三区观看 | 日韩一级网站 | 久久精品国产亚洲精品 | 久久成人18免费网站 | 中文字幕视频一区二区 | 日韩精品久久久久 | 91精品一区二区三区蜜臀 | 久久久久久久国产精品影院 | 中文字幕永久免费 | 亚洲资源一区 | 九九九热精品免费视频观看网站 | 亚洲欧洲国产精品 | 亚洲第一色 | 国产一区观看 | 亚洲最新视频在线播放 | 五月婷婷一区二区三区 | 国产在线一区二区三区播放 | 欧美午夜精品久久久久久浪潮 | 免费av黄色| 日本女人的性生活视频 | 亚洲国产影院 | 日韩精品一区二区三区免费观看视频 | 黄色av电影免费观看 | 2018好看的中文在线观看 | 久久久午夜精品福利内容 | 91精品久久久久久粉嫩 | 中文字幕在线观看视频一区 | 久久在线观看视频 | 日韩最新中文字幕 | 久久精品99国产精品亚洲最刺激 | 奇米影视777影音先锋 | 成人在线观看av | 欧美在线观看视频一区二区 | 久草视频视频在线播放 | 免费看片成年人 | 天天干天天看 | 色资源网免费观看视频 | 亚洲婷婷免费 | 超碰97在线资源站 | 久热精品国产 | 成人免费91 | 一级c片| 国产很黄很色的视频 | 国产成人61精品免费看片 | 精品久久久久久久久中文字幕 | 99久久精品免费看国产免费软件 | 精品国产一区二区三区四区在线观看 | 精品国产亚洲日本 | 亚洲欧美日韩中文在线 | 91免费看黄| 欧美二区在线播放 | 欧美日韩精品在线观看视频 | 人人舔人人爽 | 国产高清视频色在线www | 黄色毛片视频免费观看中文 | 亚洲精品视频网站在线观看 | 国产在线a不卡 | 精品国精品自拍自在线 | 91免费观看| 在线观看国产区 | 欧亚日韩精品一区二区在线 | a在线播放 | www.黄色片网站 | 国产亚洲精品bv在线观看 | 国产美女永久免费 | 亚洲精品一区二区久 | 天天干天天综合 | 亚洲一区美女视频在线观看免费 | 97精品国产 | 人人干干人人 | 在线黄色av| 亚洲一区二区三区四区在线视频 | 9免费视频 | 深爱激情综合 | 美国三级黄色大片 | 97av色| 精品久久久久久久久中文字幕 | 国产资源精品在线观看 | 成人一区二区在线观看 | 日韩丝袜视频 | 国产精品久久久久影院日本 | 激情婷婷六月 | 揉bbb玩bbb少妇bbb | 天天爽夜夜爽人人爽一区二区 | 国产一区二区在线免费 | 特级西西444www大胆高清无视频 | 97成人精品视频在线播放 | 免费毛片一区二区三区久久久 | 日韩资源在线播放 | 国产亚洲午夜高清国产拍精品 | 日韩精品久久中文字幕 | 日韩精品一区在线观看 | 91在线播放综合 | 欧美日韩免费一区二区 | 亚洲第二色 | 国产精品永久免费视频 | 福利一区在线视频 | 久 久久影院 | 91在线精品秘密一区二区 | 五月天久久久久久 | 日韩精品一区电影 | 久久精品国产久精国产 | 精品一区欧美 | 麻花天美星空视频 | 一区二区三区免费在线观看视频 | 亚洲三级网站 | 日日夜夜中文字幕 | 日本夜夜草视频网站 | 91久久丝袜国产露脸动漫 | 国产一级不卡视频 | 中文字幕精品一区二区三区电影 | 中文字幕成人一区 | 特级毛片在线观看 | 97成人免费 | 99精品视频精品精品视频 | 在线a人片免费观看视频 | 欧美色精品天天在线观看视频 | 伊人精品影院 | 中文字幕视频免费观看 | 久久精品99国产精品酒店日本 | 欧美看片 | 在线观看午夜 | 国产123区在线观看 国产精品麻豆91 | 精品亚洲免费 | 久久99亚洲网美利坚合众国 | 国产香蕉视频在线观看 | 精品国产一区二区三区日日嗨 | 最近2019中文免费高清视频观看www99 | 色狠狠干 | 免费一级特黄毛大片 | 美女网站视频久久 | 国内精品久久久久影院一蜜桃 | 国产精品亚洲人在线观看 | 麻豆视频国产在线观看 | 手机看片午夜 | 狠狠操精品 | 99久久综合国产精品二区 | 成人性生交大片免费看中文网站 | 国产二区av | 国产自产在线视频 | 91大神在线观看视频 | 天天综合成人 | 亚洲精品一区二区三区新线路 | 国内精品久久久久久久久 | 黄色影院在线免费观看 | 久久久久久美女 | 日本在线免费看 | 黄色在线视频网址 | 久久婷婷一区二区三区 | 中文一区二区三区在线观看 | 久久电影国产免费久久电影 | 欧美亚洲精品在线观看 | 91麻豆精品91久久久久同性 | 日本一区二区高清不卡 | 一区二区亚洲精品 | 欧美a视频 | 国产精品免费久久久 | 在线看黄色的网站 | 国产精品1区2区在线观看 | 综合久久久久久 | 成人h电影 | 成人亚洲精品久久久久 | 在线小视频你懂得 | 免费久久99精品国产婷婷六月 | 免费成人av网站 | 国产日韩欧美精品在线观看 | 亚洲成人免费在线 | 五月天国产| 国产精品一区二区在线播放 | 国产午夜在线观看视频 | 国模吧一区 | 精品国产伦一区二区三区观看方式 | 91女神的呻吟细腰翘臀美女 |