Tesla M40 训练机组装与散热改造
對了,我最近開通了微信公眾號,計劃是兩邊會同步更新,并逐步的會將博客上的文章同步至公眾號中。感興趣的朋友可以搜索“里先森sements”來關注,歡迎來玩~!
本文簡要介紹了我在購置 Tesla M40 計算卡并組裝一臺訓練機中所遇到的問題與解決方法。在研究與實際操作期間,以下文章給予了我很大的幫助!
關于 Tesla M40 電源連接器與 ATX 電源接口識別:
- [1] 8針EPS12V和PCI-E連接器之間有區別嗎?
https://qastack.cn/superuser/849265/is-there-a-difference-between-8-pin-eps12v-and-pci-e-connectors - [2] All about the various PC power supply cables and connectors
http://www.playtool.com/pages/psuconnectors/connectors.html
關于戴爾 PowerEdge R720 介紹以及配置其作為訓練服務器:
- [3] 可能是最吵鬧的家用服務器——戴爾PowerEdge R720開箱_服務器_什么值得買
https://post.smzdm.com/p/a25r33lp/ - [4] 淡黃的煉丹爐(篇一):DELL R720深度學習Server上手熟悉_whstudio123的博客-CSDN博客_dellr720主板詳解
https://blog.csdn.net/whstudio123/article/details/120559611
關于 Tesla M40 安裝與散熱改造:
- [5] 當泰坦X級計算卡遇上i9級CPU,礦潮下的大顯存過渡學習卡?—Tesla M40安裝過程及測試_嗶哩嗶哩_bilibili: https://www.bilibili.com/video/BV1FL41157JU
- [6] 礦潮下的泰坦X級大顯存過渡學習計算顯卡?—Tesla M40散熱改造及亮機卡建議_嗶哩嗶哩_bilibili: https://www.bilibili.com/video/BV1jZ4y1f7bE
- [7] NVIDIA TESLA M40 24G的奇妙游戲之旅 – Fantasy Land
https://east.moe/?p=1264 - [8] Gaming on a Tesla M40: GTX TITAN X performance for a Third the price | Overclock.net: https://www.overclock.net/threads/gaming-on-a-tesla-m40-gtx-titan-x-performance-for-a-third-the-price.1777611/
- [9] mattdeuts.ch: Taming the Beast: Cooling a Nvidia Tesla M40
https://www.mattdeuts.ch/2022/01/taming-beast-cooling-nvidia-tesla-m40.html?m=1 - [10] NVIDIA Tesla M40 Double 36mm Fan Mount by mmittek - Thingiverse
https://www.thingiverse.com/thing:4069723 - [11] “nvidia tesla m40 fan” 3D Models to Print - yeggi
https://m.yeggi.com/q/nvidia+tesla+m40+fan/ - [12] Video SPECIAL - Nvidia Tesla M40 alla prova in game!! - YouTube: https://www.youtube.com/watch?v=5fHi60GZ5X4&t=162s&ab_channel=Falco75
1 - 需求與預研
我現有的筆記本內部有一張 GTX1060,6G 的顯存在進行神經網絡訓練時不免有些捉襟見肘。此外,筆記本在進行訓練時散熱也是個大問題,遂萌生了搭建專用訓練服務器的想法。作為一個貧窮學生仔,我的基本需求也很簡單:便宜、大顯存。沖浪一圈后,發現上古 Tesla M40 計算卡很符合我的需求,24G 顯存版本在閑魚基本 1200 元即可拿下。盡管其算力大致只與 GTX 980Ti 持平,但跑的慢遠比不能跑強。如果預算還可以往上提個 1300 左右,大可直接拿下 Tesla P40 24G版本,算力可與 GTX 1080 Ti 持平。
但是 Tesla 系列計算卡大多為被動散熱設計,沒有主動散熱風扇。此外,計算卡上的供電為 EPS 供電接口,與顯卡常用的 PCIE 供電接口并不相同[1,2]。收一個二手機架式服務器來使用是最為理想的,機箱內的暴力風扇可以給它提供充足的散熱氣流,riser 卡上也提供了專用的 EPS 供電接口。若要在臺式機箱中使用 Tesla M40,不僅需要考慮散熱改造,還要注意電源供電的問題。
EPS 8 Pin 接口 PCIe 8 Pin 接口與 EPS 8 Pin 接口比較EPS 8 Pin 與 PCIe 8 Pin 在接口樣式與電氣特性上都有區別。EPS 8 Pin 常用于主板 CPU 供電,因此你可以嘗試購買適合你電源的額外的 CPU 線纜來給 Tesla M40 供電,但是強烈建議在實際接入前測量其電氣特性是否正確。你也可以購置一條 PCIe 轉 EPS 接口的電源轉接線,該轉接線使用兩個 PCIe 電源作為輸入,相對來說對大部分臺式機電源較為友好。
PCIe 轉 EPS 電源線1.1 - 機架式服務器還是臺式工作站
原本在淘寶看上了一臺二手戴爾 PowerEdge R720 服務器,商家給出的配置與報價如下:
| 服務器 | PowerEdge R720 3.5寸 8盤位機架式服務器 | 1 臺 |
| CPU | E5 2650 | 2 顆 |
| RAM | 4G ECC 服務器內存 | 4 條 |
| 電源 | 750w | 1 個 |
| 合計 1695 元 |
由于機房下架服務器數量較多,其配件價格通常也較為便宜。例如 3TB 的服務器拆機 SAS 硬盤通常 150 元即可入手,1100W 服務器拆機電源也僅需 120 元。在臺式工作站上,往往難以這樣低廉的價格買到放心的拆機配件。然而,購入服務器來搭建訓練平臺往往需要面臨下面幾個問題:
- 冗長的啟動自檢時間
- 45 厘米寬,76 厘米長的 2U 機箱體積
- 毛重約 20 公斤
- 蕪湖起飛的開機風扇噪音
如果你的使用場景對上述缺點不敏感,購置一臺機架式服務器無疑是擁有最大兼容性的解決方案,更多的參考請查看[3,4]。因為機架式服務器較大的噪音不適用于安放在辦公室使用,遂轉而規劃使用 X79 平臺的臺式工作站,其配置如下:
| CPU | E5 2650V2 | 58 | 淘寶 |
| CPU散熱 | 雜牌六銅管散熱器 適用 2011 針螺絲支架 | 62 | 淘寶 |
| 主板 | 華南 X79豪華大板 | 475 | 淘寶 |
| 內存 | 服務器拆機 DDR3 ECC 1600MHz 16G * 2 | 256 | 淘寶 |
| 硬盤 | 500G SATA SSD + 500G HDD | 0 | 自有 |
| 電源 | 二手 美商艾湃電競 AJ850m 850瓦 | 300 | 閑魚 |
| 計算顯卡 | Tesla M40 24G | 1200 | 閑魚 |
| 亮機顯卡 | AMD Radeon HD 8470 | 0 | 自有 |
| 機箱 | 航嘉暗夜獵手5 | 89 | 淘寶 |
| 機箱風扇 | 航嘉清風 * 2 | 19.9 | 淘寶 |
| 合計價格 | 2459.9 |
硬盤使用了一塊西部數據 SN550 500G 的 M.2 SATA 固態硬盤以及一塊實驗室拆機 500G 機械硬盤。由于學校支持掛載 EasyConnect 實現外網訪問,而華南 X79 主板支持在開機時通過快捷鍵選取本次的啟動盤 (Fast Boot)。因此,計劃在固態硬盤中安裝 Windows 10 ,機械硬盤中安裝 Ubuntu,并將機械硬盤設為默認啟動盤。這樣一來,關機狀態下只需要讓他人幫我按下開機鍵便可以直接進入 Linux 環境,即使處于外網環境依舊可以通過 SSH 進行訪問與控制。搭配 Tmux,可以非常方便的查看控制臺的運行輸出結果 ( 使用終端復用器 Tmux 解綁終端與會話)。而日常使用時,只需要在啟動時按住快捷鍵 (F7) 即可選取進入 Windows 系統。
配件合體1.2 - 需要注意的地方
首先,Tesla M40 不帶顯示接口,作為臺式工作站使用的話需要為其搭配一張亮機顯卡。這里我使用的是實驗室拆機顯卡 ATI HD 8470。如若你準備使用 NVIDIA 的顯卡作為亮機卡,請注意 Tesla M40 的驅動是否兼容。我嘗試參考他人的方案[5,6,8]在 Windows 10 中選擇 Tesla M40 作為高性能 GPU 進行顯示,發現了以下的一些問題:
- 在不安裝 ATI HD 8470 驅動的情況下(包括了斷網避免 windows 自動安裝相關驅動的情況),可以對應用程序指定使用 Tesla M40,在運行應用程序時也可以看到 Tesla M40 參與了圖形繪制任務。但代價是任何沒有被指定的應用程序都通過微軟兼容適配器驅動進行處理,桌面也非??D。
- 在安裝好 ATI HD 8470 驅動后,在圖形性能首選項菜單中,無論是節能還是高性能 GPU 都只顯示 ATI HD 8470。嘗試修改注冊表[8]也并未解決這個問題
- 切換到 Windows 10 Insider 版本后,在圖形性能首選項菜單中只有節能與高性能選項,沒有“特定的GPU”下拉欄
- Windows 11 暫不支持 E5 2650V2
其次,如若你準備使用其他主板或電源,請注意以下幾點:
- 主板 BIOS 需支持開啟 “Above 4G decoding” 或類似功能以支持 Tesla M40 24G 的顯存尋址
- 如若沒有核顯,主板 PCIE 插槽需要支持同時安裝計算顯卡以及你選擇的亮機顯卡
- 電源可以引出額外的 EPS 8 pin 接口以供 Tesla M40 使用,或者有兩條 8 針 PCIE 供電線纜(可搭配專用轉接線來給 Tesla M40 供電)
- 700 瓦以上的供電能力
此外,請盡可能選擇擁有足夠的顯卡及其附加風扇的安裝空間的機箱(建議 320CM 以上)。
標稱兼容320mm顯卡的機箱安裝效果盡管依靠 PCIe 擋板足以固定住這張計算卡,但考慮到其本為服務器豎插設計,添加一個外部支撐更為保險。相比購置專用的顯卡支架,我選擇裁剪快遞箱瓦楞紙板這種更為環保的方式。其支撐效果好,支持任意調節高度,并且由于瓦楞紙板自身結構特性,還可以濾除部分震動對計算卡的影響。
環保耐用的支架2 - 散熱修改與安裝
顯卡到手后,首先要解決的便是其在機箱內的散熱問題。設計用于服務器環境的 Tesla M40 擁有較大的被動散熱面積,適合在服務器等高氣流環境中散熱,但在個人臺式工作站中使用極易觸及其溫度墻造成過熱死機。目前國內外常用的散熱改裝方法大致可分為:風冷、水冷或者外掛風扇。本著成本與安全優先的原則,這里不討論水冷改裝。
2.1 - 外掛風扇
在顯卡外加裝風扇吹風的方案[5-7]便宜大碗,但美中不足的是會顯著增加顯卡的體積,并且需要自購合適的螺絲進行安裝。常見的風扇選型有服務器暴力風扇,9/12cm 家用機箱風扇,以及筆記本電腦常使用的渦輪風扇(鼓風機式)。
2.1.1 - 開膛散熱
由于 Tesla M40 的散熱片有折彎,不適用 Tesla K80 等開放式散熱片上外掛風扇的做法。當然,雖然這里不推薦對原裝散熱進行開膛手術,但如果你想嘗試,可以參考鏈接[12]中的做法進行改造。
折彎的散熱片封閉了氣流通道 開膛散熱片并外掛風扇散熱2.1.2 - 尾端3628風扇
我首先嘗試了 3628 服務器暴力風扇,風扇型號為 DB03628B12S,外形尺寸為 36 * 36 * 28 mm。固定這種風扇的方式可大致分為兩類,一類是使用螺絲或膠帶將其固定在顯卡末端,另一類則是 3D 打印專用的風扇罩來固定。如若選擇直接使用螺絲進行固定,需要一顆 M3 * 35 mm 螺絲來將風扇固定至顯卡末端的螺絲孔上,并依靠擰緊螺絲施加的壓力或者靠在電源線上防止風扇移動。如若你選擇的風扇厚度與我的不同,可選購比風扇長約 3mm 的螺絲。
使用膠帶(上)或者螺絲(下)固定暴力風扇直接固定的方式成本最低,后端增加長度也僅有風扇自身的 28mm,但該方法大多只能固定一個風扇。若想壓榨散熱,還需選擇專用的 3D 打印的風扇罩。參考鏈接[10]提供的可對接兩個 3628 風扇的風扇罩模型可以較好的滿足需求,但該風扇罩在接入風扇后會在顯卡后端增加約 60mm 長的空間占用,整卡帶風扇長度將達到 330mm 左右。如若準備選擇該方案,請注意你的機箱對顯卡長度的限制。此外,部分設計給其他 Tesla 計算卡使用的風扇罩可能也可以使用,但是需要注意其固定至散熱器末端的螺絲開孔是否為適用于 Tesla M40 的均勻分布式。
參考鏈接[10]提供的模型效果2.1.3 - 尾端9厘米風扇
受限于風扇尺寸限制,小尺寸暴力風扇提高風量的唯一途徑便是增加轉速,這不可避免會產生的噪音。即使使用風扇調速器,也難以在噪音與風量間達到令人滿意的平衡。在這種情況下,可以嘗試尋找可適用更大尺寸風扇的風扇罩。閑魚上有部分賣家出售自制的 9 厘米風扇罩模型,可以購置后自行打印安裝。
閑魚上銷售的9厘米風扇罩模型值得注意的是,加上這類風扇罩后,計算卡整體的長度將達到 300mm 左右,而常見的 9 厘米風扇厚度大多為 25mm ,少部分薄款風扇為 15mm。這意味著整體長度將達到 325mm左右,且會向下侵占一部分機箱空間。
標稱支持 320mm 顯卡長度的機箱使用該方案的效果2.1.3 - 尾端4020離心風扇
除開常見的軸流風扇,市面上還有渦輪風扇。4020 渦輪風扇適合直接塞在計算卡散熱器末端進風口,但購入后實測的風量差強人意,故沒有嘗試該方案。
4020渦輪風扇2.2 - 更換主動散熱
由于機箱空間有限,最終還是選擇替換為主動散熱器的方案。如若想替換 Tesla M40 原裝的散熱器為主動風冷散熱,需選購 58 * 58 mm 孔距的散熱器,并且要確保板卡尾端的供電接口不會與散熱器翅片產生沖突。此外,還需要注意是否有孔位來固定 PCIE 擋板,否則顯卡只能依靠插槽支撐。根據搜集到的資料來看,改裝者們推薦的散熱器有:
- 影馳 GTX 1080Ti 大將(GALAX GTX 1080Ti EXOC)
- 七彩虹 RTX 2080Ti Turbo
- 耕升 GTX 1080ti 追風
- 影馳海外版 GTX 960/970
- 影馳 GTX 970 骨灰黑將
上述散熱器的尾端都為供電接口留出了空隙,大多僅需要簡單的對散熱翅片進行修剪即可適用于 Tesla M40 計算卡。出于散熱效果的考慮,更推薦選購 1080Ti 及以上的散熱器。注意,僅實際上手確認影馳 GTX 1080Ti 大將可兼容修改,如欲使用其他散熱器型號,請確認是否兼容
影馳 GTX1080TI 大將,散熱器尾端的空隙為板卡的 EPS 8 pin 供電口留出了位置2.2.1 - 原裝散熱拆解
原裝散熱的拆解較為簡單,卸下所有螺絲即可,原裝散熱所使用的螺絲如下表所示:
| 外殼 | 內六角沉頭 M2*5 | 8 |
| 背板 | 十字沉頭 M2.5*5 | 1 |
| 背板 | 十字沉頭 M2.5*7 | 14 |
| 核心散熱 | 十字沉頭彈簧螺絲 M2.5*9 | 4 |
| PCIe 擋板 | 十字沉頭 M2.5*5 | 3 |
由于購置的二手主動散熱器大多不帶背板,因此將繼續使用原裝散熱的背板。如若你希望更換背板上顯存的導熱墊,選購 1.5mm 厚度的即可,這個厚度的導熱墊也適用于正面顯存。
2.2.2 - 主動散熱安裝
在安裝過程中,我所用到的材料如下表所示:
| 散熱器 | 影馳 GTX 1080Ti 大將(GALAX GTX 1080Ti EXOC) | 閑魚 | 100 |
| 導熱硅脂 | 信越7921 | 淘寶 | 10 |
| 導熱泥 | 7W/m-K 20g | 淘寶 | 33.9 |
| PCIe 擋板 | 與影馳 GTX 1080Ti 大將配套的擋板 | 淘寶 | 15 |
| 風扇溫控模塊 | 溫控風扇調速模塊,DC調壓 | 淘寶 | 10 |
| 螺絲 | 與影馳 GTX 1080Ti 大將配套的 M2/M3 螺絲與墊片 | 自有 | - |
| 高溫膠帶 | 絕緣與固定溫控模塊 | 自有 | - |
| 跳線 | 用于延長散熱器風扇供電線 | 自有 | - |
| 合計 | 168.9 |
值得一提的是,這里我選購的導熱泥為 7W/m-K,與萊爾德 HD90000 的導熱能力接近。實測 M40 計算卡在訓練過程中的發熱量尚不需要如此高規格的導熱泥。出于成本考慮,選取 3W/m-K 左右導熱能力的導熱泥的即可。此外,20g 導熱泥只夠單面顯存及供電部分使用,如若你準備給背板處的顯存也更換為導熱泥,建議購置 40g。
涂抹導熱泥和導熱硅脂修剪散熱翅片,延長散熱器風扇供電線,安裝螺絲固定散熱器后,更換工作便大功告成。雖然板卡上靠近散熱器部分的 EPS 鏈接器針腳為接地,還是建議修剪散熱器翅片后在斷面處黏貼高溫膠帶,以防后續拆裝時劃傷或短路。在安裝過程中可能出現需要添加墊片的情況,因此建議預先備好十來個左右的 M3 墊片。
使用高溫膠帶進行隔離 注意螺絲處添加的墊片2.2.3 - 裝機
測量沒有短路后,便可將其接入電腦進行測試了。在此之前,可以將購置的溫控風扇模塊安裝好。建議使用高溫膠帶包裹其金屬頭部預防短路,并將溫控探頭伸入到散熱器的熱管之間,注意不要與散熱器風扇有刮擦。
改裝主動散熱后的安裝效果3 - 散熱與訓練測試
使用 Ki-Unet 的訓練過程作為散熱與顯存容量測試。盡管訓練過程中 GPU 利用率存在波動(可能為網絡結構問題),因此測試結果僅供參考。GPU 熱點溫度維持在 70° 以下,平均溫度約 50°。數據集中圖像大小為 512 *512,縮放 0.5x 進行訓練,顯存占用 14.7G。訓練機安放在我身側20cm左右的位置上,整體訓練過程中可以很明顯感受到溫控模塊在實時調整散熱器風扇轉速,但整體噪音依舊在可接受的范圍內。
訓練過程中的溫度情況 訓練過程中的資源利用情況總結
以上是生活随笔為你收集整理的Tesla M40 训练机组装与散热改造的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 公交管理系统 代码_java公
- 下一篇: Unity光照效果_自发光动态改变并影响