芯片前沿 | 云端芯片功耗问题日益严重
?rockeric.com
在高性能運(yùn)算領(lǐng)域優(yōu)化處理器設(shè)計(jì)任重而道遠(yuǎn)
對(duì)于傳統(tǒng)的亦或是超大規(guī)模的數(shù)據(jù)中心而言,它們的運(yùn)算性能受到了極大的限制,原因在于高速運(yùn)算所需的高功耗,以及服務(wù)器內(nèi)部的日益增長的大量處理器,存儲(chǔ)器,硬盤以及操作系統(tǒng)所帶來的散熱問題。
?
功耗問題十分的麻煩且復(fù)雜,即便如此,想在系統(tǒng)中降低功耗可以通過一系列有效的手段實(shí)現(xiàn)。然而對(duì)于7nm及其以下的工藝而言,問題就沒有那么簡單了。在以設(shè)計(jì)高性能芯片為目標(biāo)的市場中,功耗問題如今成為這個(gè)行業(yè)的主要限制因素。這就導(dǎo)致了針對(duì)這一細(xì)分市場的芯片設(shè)計(jì)方式發(fā)生了重大轉(zhuǎn)變,尤其是針對(duì)需要一直線上運(yùn)行以及快速供電的云數(shù)據(jù)中心而言。在過去,超裕度設(shè)計(jì)結(jié)構(gòu)是確保服務(wù)器正常運(yùn)行的常用方法,但現(xiàn)在不再采用這種方法是因?yàn)樗?strong>同時(shí)影響著功耗與性能。
?
對(duì)于大規(guī)模的數(shù)據(jù)中心而言,能源成本是相當(dāng)昂貴的。大多數(shù)數(shù)據(jù)中心的預(yù)算中,能源成本都占著很大一部分比重。區(qū)域性供電能力,服務(wù)器所產(chǎn)生的熱量,用于冷卻服務(wù)器的氣流或液體的溫度和導(dǎo)向,使用云端操作時(shí)處于“開”與“關(guān)”狀態(tài)的處理器數(shù)目,都會(huì)很大程度地影響到電量的使用。
?
“據(jù)估計(jì),2014年美國2%的能源消耗用于為數(shù)據(jù)中心供電,”Ansys的應(yīng)用主管安庫爾·古普塔(Ankur?Gupta)說。“并且在四年后,這個(gè)數(shù)字將會(huì)接近5%。巨大的能耗成本不禁使得這些公司思考,如此大的能源消耗的原因到底是什么。”
?
為了分析這一問題,如今的大數(shù)據(jù)中心通過采用仿真工具來分析服務(wù)器架構(gòu),正是因?yàn)檫@些設(shè)備都是需要被冷卻的發(fā)熱源,因此仿真分析涉及到使用何種類型的冷卻方案,以及散熱與冷卻方式是否可以優(yōu)化,以此達(dá)到降低能耗的目的。
?
“數(shù)據(jù)中心的機(jī)架發(fā)熱問題會(huì)影響到芯片的可靠性似乎是不爭的事實(shí),”Gupta說。“為此我們深入研究芯片的半導(dǎo)體領(lǐng)域,并著眼于芯片的制造工藝,運(yùn)行電壓與環(huán)境溫度等細(xì)節(jié)。為了更好地解決芯片的發(fā)熱問題,我們需要比以前更加細(xì)致地研究溫度這一因素。而我們發(fā)現(xiàn),以移動(dòng)設(shè)備的計(jì)算域?yàn)槔?#xff0c;相比于溫度而言,人們更加關(guān)注于在超低電壓邊界條件下的電壓變化與運(yùn)算狀態(tài)變化。因?yàn)檎w來說,手機(jī)溫度的些許過熱并不影響其正常使用。”但是對(duì)于高速運(yùn)算領(lǐng)域而言,就比普通移動(dòng)設(shè)備運(yùn)算領(lǐng)域要有更高的要求,因?yàn)楦咚龠\(yùn)算芯片的片上溫度所帶來的影響可比普通移動(dòng)終端芯片要大的多。
?
“高速運(yùn)算領(lǐng)域相的芯片溫度之所以有這么大的影響,在于其功耗要比移動(dòng)設(shè)備高出兩個(gè)數(shù)量級(jí),”Gupta說,“手機(jī)的功耗大概只有3到5瓦特,而高速運(yùn)算機(jī)架的功耗卻有300到500瓦。在器件層面,每一個(gè)finFET器件都存在自熱等局部熱效應(yīng)。不同的片上溫度給芯片所造成的影響需要引起高度關(guān)注,因?yàn)檫@可能會(huì)影響到關(guān)鍵的時(shí)鐘路徑,以及芯片上的多個(gè)域的工作。并且其中的一些時(shí)鐘路徑與存儲(chǔ)器有關(guān),它們?cè)谡9ぷ鳡顟B(tài)下的工作溫度要比預(yù)設(shè)的高的多,尤其值得重視。”
?
Fig.?1:?High-performance?computing?in?action.?Source:?IBM?
?
超裕度設(shè)計(jì)方案的沒落
超裕度設(shè)計(jì)方案長期以來都是減少設(shè)計(jì)風(fēng)險(xiǎn)的有效手段,而如今這種方案卻不再適用。
?
“當(dāng)芯片設(shè)計(jì)師對(duì)于晶體管級(jí)組件的變量因素所帶來的影響沒有十足的把握時(shí),他們就會(huì)添加一定的設(shè)計(jì)裕度來保證芯片正常工作,當(dāng)然這是以性能,功耗等方面的犧牲為前提,”Mentor公司的工程主管Jeff?Dvck說到。例如,當(dāng)芯片必須在-40°C至125°C的溫度范圍,工作電壓范圍為0.48v至1.2v,并且工藝偏差值不超過4 sigma的狀態(tài)下運(yùn)行時(shí),設(shè)計(jì)人員通常會(huì)模擬工藝極限(Process Corner)中的一部分情況,比方說在一兩個(gè)最壞工藝條件下模擬幾百個(gè)蒙特卡洛樣本(偏差在2.5sigma值)以此來保證設(shè)計(jì)的安全性與穩(wěn)定性。
?
?
“通常這種方法用于模擬處于不同狀態(tài)下芯片的性能情況,但是由于這種模擬存在一定的不確定性,因此設(shè)計(jì)師們可能會(huì)添加一些死域(die?area),增大電壓值,以及降低芯片性能來彌補(bǔ)估計(jì)誤差,這樣一來就增大了設(shè)計(jì)裕度(margin)。”Dyck說,“為了解釋未知的異變所帶來的影響,增加5%到30%左右的設(shè)計(jì)裕度都不算罕見。”
?
因此,即使這類設(shè)計(jì)方法會(huì)保證芯片的穩(wěn)定性,但同時(shí)也會(huì)降低芯片性能,并增加一些重要模塊的功耗。
?
Moortec?Semiconductor的首席技術(shù)官Oliver?King說:“超裕度設(shè)計(jì)方案在芯片設(shè)計(jì)亟須降低功耗的今天并不再是一種有效方案,并且其成本也會(huì)隨著你所得利潤的增大而水漲船高。這種設(shè)計(jì)方案最大的問題在于你不知道需要多大的設(shè)計(jì)裕度才合適,對(duì)于一些優(yōu)先級(jí)較高的模塊而言,finFET老化模型設(shè)計(jì)多大的裕度我們很難權(quán)衡。而現(xiàn)在出現(xiàn)了一類新的方法來取代這種設(shè)計(jì)方法,即對(duì)芯片本身的實(shí)時(shí)監(jiān)控技術(shù)。在工作狀態(tài)下,芯片會(huì)監(jiān)控自身有哪些損耗,并且做出相應(yīng)的對(duì)策。”
?
在高速運(yùn)算領(lǐng)域,尤其是在AI與加密貨幣挖礦領(lǐng)域,功耗管理始終是頭等大事。“我們的目標(biāo)是通過用最小的功耗來實(shí)現(xiàn)最大的產(chǎn)出,尤其是在加密貨幣挖礦這一領(lǐng)域,真的是拿電量砸出來的比特幣。”King說,“高性能運(yùn)算其實(shí)也是一樣的道理,無論你是提供數(shù)據(jù)中心還是大數(shù)據(jù)運(yùn)算,亦或是進(jìn)行AI深度學(xué)習(xí)。比如說你現(xiàn)在是Alexa的終端,你需要算出所用使用者所要詢問的答案,而這些高速運(yùn)算都需要大量的功耗成本”目前,所有的這類高速運(yùn)算芯片都?xì)w屬于同一類,且這類芯片的功耗是會(huì)隨著運(yùn)算量增大而不斷增大的,在這種前提下,如何在降低電源電壓的同時(shí)并且逼近其運(yùn)算極限就顯得尤為重要了。高速運(yùn)算芯片在逼近運(yùn)算極限前總是存在一定余量的,多數(shù)情況下當(dāng)然是要最大程度地接近這個(gè)極限,但也存在一些情況下,芯片會(huì)超出一點(diǎn)運(yùn)算極限。”
?
無論是處理芯片內(nèi)部,封裝還是電路板內(nèi)部的熱效應(yīng),還是服務(wù)器,數(shù)據(jù)中心甚至商用電網(wǎng)中的熱效應(yīng),功耗管理都十分重要。通常來說,高速運(yùn)算從來都不是省油的燈。“高速運(yùn)算的服務(wù)器可不是電池供電的,”Cadence數(shù)字與簽收組產(chǎn)品管理總監(jiān)Marc?Swinnen表示,“過去人們只關(guān)心運(yùn)算速度,從來不考慮用電的問題。而如今在一些高精尖領(lǐng)域,服務(wù)器處理器正在逐漸接近它的功耗極限,為了避免過大功耗引起的熱效應(yīng)導(dǎo)致芯片融化,一塊芯片板上所能承受的芯片數(shù)目是有限的。現(xiàn)在無論是誰,不管喜歡與否,都要仔細(xì)考慮如何降低芯片功耗這一問題。”
?
對(duì)于這類高速運(yùn)算系統(tǒng)和芯片,必須創(chuàng)建相當(dāng)規(guī)模的電網(wǎng)以滿足這些處理器的電力需求。“有一種傳統(tǒng)的芯片sign-off方法可以檢查電網(wǎng)是否真的支持配電,但這通常需要依據(jù)降低電壓來實(shí)現(xiàn),”Swinnen說。?“一旦設(shè)置了電壓限制,那么芯片就要保證不會(huì)超出這個(gè)電壓限制。現(xiàn)在的問題是,在運(yùn)算速度在不斷地增長前提下,還要保證更低的運(yùn)行電壓,這就意味著在設(shè)計(jì)供電電網(wǎng)時(shí)需要下很大地功夫。同時(shí),隨著7nm工藝阻抗的增高,使得設(shè)計(jì)這類供電網(wǎng)絡(luò)變得更加地困難,”他補(bǔ)充道,“相比于單純地關(guān)注電壓降低幅度本身,我們更加關(guān)注電壓降低所帶來的時(shí)序上的影響。”
?
高級(jí)節(jié)點(diǎn)和靜態(tài)漏電流
雖然高級(jí)節(jié)點(diǎn)設(shè)計(jì)仍然存在許多挑戰(zhàn),但是得益于finFET種的柵極結(jié)構(gòu)這一最新技術(shù)的影響,與以前的二極管晶體管設(shè)計(jì)相比,它大大降低了漏電流。
?
“人們時(shí)常會(huì)把高性能與高功耗聯(lián)系在一起,”Cadence集團(tuán)Digital?&?Signoff產(chǎn)品管理總監(jiān)Jerry?Zhao說。“強(qiáng)大的性能都需要相對(duì)應(yīng)的功耗才能實(shí)現(xiàn),就像小型賽車那樣,它們?yōu)榱丝梢耘艿母?#xff0c;就會(huì)消耗更多的能源。如何克服高功耗所帶來的挑戰(zhàn)是我們作為設(shè)計(jì)工程師需要共同思考的問題。多虧了各家foundry以及在7nm與5nm工藝處于領(lǐng)先地位的公司,finFET技術(shù)通過降低漏電流大大削減了大功耗器件的能耗。這種先進(jìn)的技術(shù)能夠彌補(bǔ)上電子設(shè)備動(dòng)態(tài)運(yùn)行時(shí)追求更快速度所多浪費(fèi)的功耗。就芯片設(shè)計(jì)而言,電力輸送網(wǎng)絡(luò)貫穿了整個(gè)從電池到電路板再到封裝,最后到處理器設(shè)計(jì)供電的整個(gè)過程。這類電力輸送網(wǎng)絡(luò)的設(shè)計(jì)十分的復(fù)雜,因?yàn)槟悴粌H需要使得每一個(gè)電源對(duì)應(yīng)著不同核心的power?domain,并且還要能夠自由地開關(guān)這些power?domain。”
?
但是,當(dāng)涉及到設(shè)備擴(kuò)展時(shí),沒有技術(shù)能夠永遠(yuǎn)奏效。漏電流可以在16nm和14nm工藝得到有效控制,但到10nm和7nm時(shí)就沒那么簡單了。減少漏電流的下一代技術(shù)將會(huì)是全柵級(jí)FET,其可包括水平納米線或納米片。目前來說這項(xiàng)技術(shù)將何時(shí)投入使用尚不明確,不過較為普遍的說法是將會(huì)在5nm和3nm的工藝上看到這個(gè)技術(shù)的出現(xiàn)。
?
功耗問題是所有處理器過不去的坎
不僅僅是工藝節(jié)點(diǎn)上涉及到功耗問題,高速運(yùn)算所使用的各種處理器類型,都將面臨著功耗所帶來的挑戰(zhàn)。
?
Synopsys產(chǎn)品營銷高級(jí)經(jīng)理Mike?Thompson表示,“目前數(shù)據(jù)中心的大多數(shù)服務(wù)器都采用英特爾x86處理器,并圍繞它構(gòu)建了許多專用功能。這些專用單元的獨(dú)特之處在于它們針對(duì)專用的應(yīng)用程序。我們?cè)锌蛻粼诖笮完嚵兄惺褂镁W(wǎng)絡(luò)處理器(一種專用的高性能主干處理器)來處理專有的并行任務(wù)。也有一些公司進(jìn)行科學(xué)類型的超算,通常這類超算是不允許將任務(wù)并行化的,因此他們就追求更高的運(yùn)算速度。”
?
“這些公司采取的辦法是使用最多可包含16到32個(gè)處理器類型的陣列,這類陣列的設(shè)計(jì)取決于任務(wù)的類型,某些任務(wù)必須在某種程度上可并行化,以利用不同數(shù)量的處理器來進(jìn)行對(duì)稱處理。因此要設(shè)計(jì)這樣類型的陣列,他們就需要更深層次的流水線以及最大性能的支持。想要獲得最大化的運(yùn)算性能,那就需要再找更高性能的處理器,因此他們采用的是一種與眾不同的方法——尋找更深層次的流水線(pipeline)。通常來說他們想實(shí)現(xiàn)的目標(biāo)是超標(biāo)量雙重化(superscalar?dual),但有時(shí)也會(huì)嘗試多線程的方法。如果層次結(jié)構(gòu)較為冗長,多線程當(dāng)然可以提供幫助,但更多時(shí)候研究的重點(diǎn)還是放在如何設(shè)計(jì)高性能運(yùn)算芯片,也就是如何將芯片的內(nèi)存盡可能地靠近處理器,并盡量減少它們必須延伸的程度。”“在這些情況下,性能是他們首先要考慮的問題,但是同樣的功耗問題也是十分顯著的。”Thompson說到,“功耗問題不容忽視,靠近處理器的內(nèi)存越多,那么隨之增加的功耗所帶來的問題越值得重視。”
?
Swinnen同樣指出這個(gè)問題。他認(rèn)為高性能計(jì)算所帶來功耗方面的擔(dān)憂還在于,要想降低功耗,那么就必須降低運(yùn)算性能,“這是我們都不希望看到的,所以怎樣在保證性能的同時(shí)維持一定的功耗就值得深思熟慮了。”他說,“功耗與性能之間存在很嚴(yán)重的分歧。舉個(gè)例子來說,有家公司設(shè)計(jì)了一款以3GHz運(yùn)行的高性能芯片,但是實(shí)際做出來之后它只能以2.7Ghz運(yùn)行,并且也沒辦法讓它以更高的速度運(yùn)行。原因在于IR?drop,電源網(wǎng)絡(luò)金屬連線分壓過多,導(dǎo)致所供電壓減小,從而影響時(shí)鐘頻率減小,因此芯片無法全功率運(yùn)行。而且最關(guān)鍵的一點(diǎn)是,實(shí)際上芯片已經(jīng)使用了目前所已知的用于分析IR?drop的sign-off方法,而且所得的分析結(jié)果都是pass狀態(tài),然而在流片之后所得的成品依然存在IR?drop所帶來的一系列問題。”
?
實(shí)際上還有許多類似的情景說明這是一個(gè)全行業(yè)都面臨的嚴(yán)峻挑戰(zhàn)。“為了解釋這一點(diǎn),”Swinnen解釋道,“用于sign-off分析的工具必須能夠解釋電壓的損失對(duì)應(yīng)時(shí)鐘頻率會(huì)有多大的影響。這種電壓的變化可能由成千上萬個(gè)細(xì)小的電壓所組成,而我們所用的工藝庫只能對(duì)其中一到兩個(gè)電壓點(diǎn)進(jìn)行表征。因此工具需要能夠做到插值估計(jì),對(duì)于1伏特的庫(library),你需要在0.9以及0.8伏特下就進(jìn)行表征,然后需要對(duì)0.8到1.0伏特間的電壓降進(jìn)行插值估計(jì)以預(yù)測時(shí)鐘頻率的變化。
?
“諸如GPU這類之前都沒到達(dá)功耗壁壘的處理器,現(xiàn)在也給工程師團(tuán)隊(duì)帶來了新的挑戰(zhàn)。”Gupta表示,?“人們普遍認(rèn)為,對(duì)于GPU而言,工作時(shí)的標(biāo)準(zhǔn)電壓約為1伏特,在7納米僅0.8伏特,而在如今的7nm工藝的移動(dòng)設(shè)備的工作電壓更是低于600毫伏。但是一些GPU設(shè)計(jì)人員告訴我們,當(dāng)設(shè)備的規(guī)格越來越大時(shí),這些設(shè)備將會(huì)逐漸逼近功耗的極限,因?yàn)橄啾扔?0nm工藝而言,7nm工藝使得設(shè)備可以多容納數(shù)十億個(gè)晶體管。因此放到設(shè)備的整體功耗上來看,GPU設(shè)備實(shí)際上也將面臨功耗所帶來的嚴(yán)峻挑戰(zhàn)。”“這將對(duì)GPU的設(shè)計(jì)帶來非凡的影響。在移動(dòng)終端領(lǐng)域,在固定的標(biāo)準(zhǔn)電壓下工作這類供電方式逐漸在減少,因?yàn)樵O(shè)備的功耗需要限定一定的范圍呢,而如今GPU也將面臨相同的處境。如果GPU工作電壓低于800毫伏,比如說600毫伏時(shí),那么這個(gè)時(shí)候就得考慮過低的工作電壓對(duì)時(shí)鐘頻率的影響,工藝上的偏差,以及其他移動(dòng)設(shè)備領(lǐng)域所面臨的挑戰(zhàn)了。
?
“高性能處理器亦是如此,”來自Cadence的Zhao說,“任何一種高性能處理器,比如說AI芯片,以及前幾年很熱門的比特幣采礦芯片,都在逐漸地到達(dá)功耗壁壘,因?yàn)楝F(xiàn)在對(duì)這些芯片運(yùn)算速度的需求正在與日俱增,并且多數(shù)情況下,是很多塊高性能芯片同時(shí)工作,這將會(huì)消耗大量的電力,同時(shí)對(duì)設(shè)備溫度的監(jiān)控及熱效應(yīng)可能會(huì)造成的影響也會(huì)徒增很多麻煩。”
?
總結(jié)
功耗是高級(jí)節(jié)點(diǎn)最為頭疼的問題之一,尤其在HPC領(lǐng)域顯得更為棘手。然而現(xiàn)如今還沒有找到簡單有效的解決方案,甚至連一點(diǎn)苗頭都沒見著。設(shè)計(jì)經(jīng)理有時(shí)會(huì)說:哦,這種技術(shù)只能節(jié)省2%的功耗,而那種只能節(jié)省5%,另外那種只能節(jié)省3.5%。細(xì)數(shù)目前行業(yè)這類功耗管理技術(shù),沒有一種是可以節(jié)省到50%或60%的,實(shí)際上目前能夠做到極限也就只能是節(jié)省那可憐的幾個(gè)百分點(diǎn)。無論是芯片設(shè)計(jì)的哪個(gè)階段,功耗問題都值得注意,并且需要在每一個(gè)環(huán)節(jié)上使用合適的低功耗技術(shù),這樣在你流片時(shí)才會(huì)得到你所需的低功耗芯片,而這些工作,需要滲透到每一個(gè)設(shè)計(jì)流程中去才行。
?
原文來自semiengineering
https://semiengineering.com/power-issues-grow-in-high-performance-computing/
?
往期精彩:
V1驗(yàn)證班底價(jià)拼團(tuán),現(xiàn)購現(xiàn)學(xué)不用等!
倒計(jì)時(shí)?|?DVCon?China注冊(cè)優(yōu)惠末班車已啟動(dòng)!
實(shí)錘!30W+!!!2018芯片校招薪資比肩互聯(lián)網(wǎng)!
理解UVM-1.2到IEEE1800.2的變化,掌握這3點(diǎn)就夠了
Verification和Validation傻傻分不清楚?面經(jīng)重點(diǎn)!
沒想到,雙十一只花10塊錢,我竟然愛上了加班
?
總結(jié)
以上是生活随笔為你收集整理的芯片前沿 | 云端芯片功耗问题日益严重的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用JS获取客户端的IP地址
- 下一篇: 国外计算机从什么开始学,从零开始学电脑知