高效的深度学习:将深度学习模型变得更小、更快、更好的综述
?PaperWeekly 原創 · 作者 |?王馨月
學校 |?四川大學本科生
研究方向?|?自然語言處理
摘要
深度學習徹底改變了計算機視覺、自然語言理解、語音識別、信息檢索等領域。然而,隨著深度學習模型的逐步改進,它們的參數數量、延遲、訓練所需的資源等都大幅增加。
因此,關注模型的這些內存印跡指標,而不僅僅是其質量,也變得很重要。我們提出并推動了深度學習中的效率問題,然后對模型效率的五個核心領域(跨度建模技術、基礎設施和硬件)及其開創性工作進行了全面綜述。
我們還提供了一個基于實驗的指南和代碼,供從業者優化他們的模型訓練和部署。我們相信這是高效深度學習領域的第一次全面綜述,覆蓋從建模技術到硬件支持的模型效率領域。我們希望這份調查能夠為讀者提供思維模型和對該領域的必要理解,以應用通用效率技術立即獲得顯著改進,并為他們提供進一步研究和實驗的想法,以獲得額外的收獲。
論文標題:
Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better
論文作者:
Gaurav Menghani
論文鏈接:
https://arxiv.org/abs/2106.08962
引言
在過去十年中,使用神經網絡進行深度學習一直是訓練新機器學習模型的主要方法。它的崛起通常歸功于 2012 年的 ImageNet 競賽。那一年,多倫多大學的一個團隊提交了一個深度卷積網絡(AlexNet,以首席開發者 Alex Krizhevsky 的名字命名),表現優于下一個最好的提交結果 41%。
作為這項開創性工作的結果,人們競相使用越來越多的參數和復雜性來創建更深層次的網絡。VGGNet、Inception、ResNet 等幾個模型架構在隨后幾年的 ImageNet 比賽中相繼打破了之前的記錄,同時它們的內存印跡(模型大小、延遲等)也在不斷增加。
在自然語言理解(NLU)中也有這種影響,其中主要是基于 attention 層的 Transformer 架構激發了 BERT、GPT-3 等通用語言編碼器的開發。BERT 在發布時就擊敗了 11 個 NLU 基準測試。GPT-3 也已通過其 API 在行業的多個地方使用。這些領域的共同點是模型占用空間的快速增長以及與訓練和部署它們相關的成本(如圖)。
由于深度學習研究一直專注于改進現有技術,因此圖像分類、文本分類等基準的逐步改進與網絡復雜度、參數數量和所需的訓練網絡所需資源量以及預測的延遲的增加相關。例如,GPT-3 包含 1750 億個參數,僅訓練一次迭代就需要花費數百萬美元。這不包括實驗/嘗試不同超參數組合的成本,這在計算上也很昂貴。
雖然這些模型在訓練它們的任務上表現良好,但它們不一定足夠有效,無法在實際生活中直接部署。深度學習從業者在訓練或部署模型時可能會面臨以下挑戰。
可持續的服務器端擴展:訓練和部署大型深度學習模型的成本很高。雖然訓練可能是一次性成本(或者如果使用預先訓練的模型可能是免費的),部署并讓推斷運行很長一段時間仍然可能會在服務器消耗方面變得昂貴,考慮到服務器端的 RAM、CPU 等。即使對于像谷歌、Facebook、亞馬遜等每年在其數據中心上花費數十億美元的組織來說,數據中心的碳空間印跡也是一個非常現實的問題。
啟用設備上部署:出于多種原因(隱私、連接性、響應性),某些深度學習應用程序需要在 IoT 和智能設備(模型推斷直接在設備上進行)上實時運行。因此,優化目標設備的模型變得勢在必行。
隱私和數據敏感性:當用戶數據可能敏感時,能夠使用盡可能少的數據進行訓練至關重要。因此,有效地訓練模型數據意味著需要較少的數據收集。
新應用程序:某些新應用程序提供了現有現成模型可能無法解決的新約束(圍繞模型質量或占用空間)。
模型爆炸:雖然單一模型可能運行良好,但在同一基礎架構(托管)上為不同應用程序訓練和/或部署多個模型可能會最終耗盡可用資源。
高效深度學習
圍繞上述挑戰的共同主題是效率。我們可以進一步分解如下:
推斷效率:這主要處理部署推斷模型(計算給定輸入的模型輸出)的人會提出的問題。模型小嗎?速度快嗎?更具體地說,模型有多少參數,磁盤大小是多少,推斷過程中的 RAM 消耗,推理延遲等。
訓練效率:這涉及訓練模型的人會問的問題,例如模型訓練需要多長時間?有多少設備?該模型可以放入內存中嗎?它還可能包括諸如模型需要多少數據才能在給定任務上實現所需性能的問題。
如果要給我們兩個模型,在給定的任務上表現同樣出色,我們可能希望選擇一個在上述任一方面或理想情況下在上述兩個方面都表現更好的模型。如果要在推斷受限的設備(例如移動和嵌入式設備)或昂貴的設備(云服務器)上部署模型,則可能更值得關注推斷效率。同樣,如果要使用有限或昂貴的訓練資源從頭開始訓練大型模型,開發專為提高訓練效率而設計的模型會有所幫助。
無論優化目標是什么,我們都希望實現帕累托最優。這意味著我們選擇的任何模型都是我們關心的權衡的最佳選擇。如圖,綠點代表帕累托最優模型,其中其他模型(紅點)在相同的推理延遲下均無法獲得更好的準確性,反之亦然。帕累托最優模型(綠點)共同構成了我們的帕累托前沿(pareto-frontier)。根據定義,帕累托前沿中的模型比其他模型更有效,因為它們在給定的權衡下表現最好。因此,當我們尋求效率時,我們應該考慮在帕累托前沿上發現和改進。
為了實現這一目標,我們建議轉向一組算法、技術、工具和基礎設施的組合,它們可以協同工作,以允許用戶訓練和部署關于模型質量及其內存印跡的帕累托最優模型。
總結
在本文中,我們首先展示了深度學習模型的快速增長,并說明了當今訓練和部署模型的人必須對效率做出隱式或顯式決策的事實。然而,模型效率的前景是廣闊的。
為了解決這個問題,我們為讀者設計了一個心智模型,讓他們圍繞模型效率和優化的多個重點領域進行思考。核心模型優化技術的綜述使讀者有機會了解最新技術、在建模過程中應用這些技術,和/或將它們用作探索的起點。基礎設施部分還列出了使高效模型的訓練和推理成為可能的軟件庫和硬件。
最后,我們展示了一部分明確且可操作的見解并輔以代碼,供從業者用作該領域的指南。本節有望提供具體且可操作的要點,以及在優化用于訓練和部署的模型時要考慮的權衡。總而言之,我們認為通過本篇綜述,我們讓讀者具備了必要的理解能力,可以分解從次優模型到滿足他們對質量和內存印跡的模型所需的步驟。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的高效的深度学习:将深度学习模型变得更小、更快、更好的综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 借呗会不会影响购房贷款 申请时还要满足
- 下一篇: 想买车得等大半年 很多车型都是一车难求