當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

Hugging Face 年度回顾：2023，开源大模型之年

發(fā)布時間：2023/12/31 windows 44 coder

生活随笔收集整理的這篇文章主要介紹了 Hugging Face 年度回顾：2023，开源大模型之年小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在 2023 年，大型語言模型（Large Language Models，簡稱 LLMs）受到了公眾的廣泛關(guān)注，許多人對這些模型的本質(zhì)及其功能有了基本的了解。是否開源的議題同樣引起了廣泛的討論。在 Hugging Face，我們對開源模型抱有極大熱情。開源模型的優(yōu)勢在于，它們不僅促進了研究的可復(fù)制性，還鼓勵社區(qū)參與到人工智能模型的開發(fā)中來，這樣做有助于我們更容易地審視模型中可能存在的偏差和局限性。此外，通過重復(fù)利用已有的檢查點，我們還能夠減少整個領(lǐng)域的碳足跡（這只是眾多優(yōu)點中的一部分）。

讓我們一起回顧開源 LLMs 在過去一年的發(fā)展歷程吧！

為了確保本文篇幅適中，我們將不涉及代碼模型的相關(guān)內(nèi)容。

?? 預(yù)訓(xùn)練大型語言模型的配方

首先，如何獲得一個大型語言模型呢？（如果你對此已有所了解，可以跳過這部分內(nèi)容。）

模型的 架構(gòu)（即其代碼表示）定義了它的具體實現(xiàn)和數(shù)學(xué)結(jié)構(gòu)：這包括所有的相關(guān)參數(shù)，以及這些參數(shù)如何與輸入數(shù)據(jù)進行交互。目前，大多數(shù)高性能的大型語言模型（LLMs）都是基于 “僅解碼器”（decoder-only）的 Transformer 架構(gòu)的衍生版本，有關(guān)原始 Transformer 的詳細信息可以參考其發(fā)表的論文。

訓(xùn)練數(shù)據(jù)集 是模型訓(xùn)練過程中（即參數(shù)被學(xué)習(xí)時）所依賴的全部樣本和信息的集合，它使模型能夠?qū)W習(xí)到特定的數(shù)據(jù)模式。這些數(shù)據(jù)通常包括多樣的文本材料，既可以是各種自然語言文本，如法語、英語、漢語等，也可以是各類編程語言代碼，比如 Python、C 語言等，或者是任何能夠以文本形式表現(xiàn)的結(jié)構(gòu)化信息，例如 Markdown 或 LaTeX 中的表格、公式等。

分詞器 是定義如何將訓(xùn)練數(shù)據(jù)集中的文本轉(zhuǎn)化為數(shù)字的工具（因為模型是一個數(shù)學(xué)函數(shù)，因此需要數(shù)字作為輸入）。分詞是通過將文本轉(zhuǎn)換為稱為 “詞元” 的子單元（可以是單詞、子詞或字符，具體取決于分詞方法）來完成的。分詞器的詞匯量大小決定了其能夠?qū)⑽谋痉指畛傻牟煌~元的種類數(shù)目，這個數(shù)字通常介于 32,000 到 200,000 之間。數(shù)據(jù)集的規(guī)模常常用它包含的 詞元數(shù)量 來衡量。經(jīng)過分詞后，如今的數(shù)據(jù)集范圍從幾千億詞元到幾萬億詞元不等，這些詞元是構(gòu)成數(shù)據(jù)集的基本單元。

訓(xùn)練超參數(shù) 定義了模型訓(xùn)練的方法。這些參數(shù)決定了模型應(yīng)如何調(diào)整自身以適應(yīng)新的數(shù)據(jù)樣本，以及模型參數(shù)更新的速度應(yīng)該是多快。

一旦確定了這些超參數(shù)，接下來需要的就是 1）充足的計算資源來進行模型訓(xùn)練；2）具備專業(yè)技能的人員來執(zhí)行和監(jiān)督訓(xùn)練過程。訓(xùn)練過程本身包括在訓(xùn)練所用的硬件上初始化模型架構(gòu)，以及依據(jù)前述超參數(shù)在訓(xùn)練數(shù)據(jù)集上應(yīng)用訓(xùn)練算法。訓(xùn)練的成果是一系列模型權(quán)重 —— 這些就是經(jīng)過學(xué)習(xí)的 模型參數(shù)，也正是人們通常所說的開放獲取的預(yù)訓(xùn)練模型。這些權(quán)重可以用于后續(xù)的 推理過程，即對新的輸入數(shù)據(jù)進行預(yù)測，例如生成文本。

預(yù)訓(xùn)練的大型語言模型（LLM）在完成初始訓(xùn)練后，還可以根據(jù)具體任務(wù)進行定制化或進一步調(diào)整。特別是當(dāng)這些模型的參數(shù)被開放共享時，它們可以作為不同用例和應(yīng)用的基礎(chǔ)，經(jīng)過一種稱為 “微調(diào)” 的過程進行優(yōu)化。微調(diào)包括在與原始預(yù)訓(xùn)練數(shù)據(jù)集不同的、通常更小且更專業(yè)化的數(shù)據(jù)集上，對模型執(zhí)行額外的訓(xùn)練步驟，目的是為了針對特定應(yīng)用場景優(yōu)化模型性能。盡管微調(diào)步驟在計算資源消耗上有一定成本，但這一成本通常遠低于從零開始訓(xùn)練一個全新模型所需的財務(wù)投入和環(huán)境代價。這也是高品質(zhì)開源預(yù)訓(xùn)練模型極具吸引力的一個原因，它們使得即便是計算預(yù)算有限的從業(yè)者也能夠*地使用和改進這些模型。

??? 2022 年，從規(guī)模競賽轉(zhuǎn)向數(shù)據(jù)競賽

在 2023 年之前，社區(qū)有哪些開源模型可用？

直至 2022 年初，機器學(xué)習(xí)界普遍認為，模型的規(guī)模越大（即擁有的參數(shù)越多），其性能也越出色。特別是，模型一旦超過某個特定的規(guī)模閾值，其能力似乎會實現(xiàn)質(zhì)的飛躍，這兩種現(xiàn)象分別被稱為 突現(xiàn)能力 和 規(guī)模定律。2022 年推出的多個預(yù)訓(xùn)練開源模型家族大多遵循這種范例。

BLOOM (BigScience Large Open-science Open-access Multilingual Language Model)
BLOOM 是由 BigScience 研究團隊推出的一系列模型。BigScience 是一個由 Hugging Face 協(xié)調(diào)，聯(lián)合法國的 GENCI 和 IDRIS 組織共同參與的國際合作項目，涵蓋了來自 60 個國家、250 個研究機構(gòu)的 1000 名科研人員。這些模型采用了僅包含解碼器的 transformer 架構(gòu)，并進行了細微調(diào)整，比如引入了嵌入后歸一化和 ALiBi 位置嵌入技術(shù)。在這一系列模型中，最大的一個擁有 1760 億個參數(shù)，它接受了 46 種人類語言和 13 種編程語言的 3500 億個多語言數(shù)據(jù)詞元的訓(xùn)練。大量的訓(xùn)練數(shù)據(jù)已經(jīng)向公眾開放，包括數(shù)據(jù)的來源、策劃和處理過程的詳細信息。它是目前為止發(fā)布的最大的開源多語言模型。
OPT (Open Pre-trained Transformer)
Meta 發(fā)布的 OPT 模型系列采用了僅包含解碼器的 Transformer 架構(gòu)。這些模型借鑒了 GPT-3 論文中的技術(shù)，如特定的權(quán)重初始化和預(yù)歸一化策略，并對注意力機制進行了改進，比如引入了交替的密集型與局部帶狀注意力層。系列中最大的模型擁有 1750 億個參數(shù)，其訓(xùn)練數(shù)據(jù)涵蓋了來自公共領(lǐng)域的 1800 億個數(shù)據(jù)詞元，包括書籍、Reddit 社交平臺數(shù)據(jù)、新聞、*以及其他多種互聯(lián)網(wǎng)來源。這一系列模型在性能上與 GPT-3 不相上下，并且通過編碼優(yōu)化減少了計算資源的消耗。
GLM-130B (General Language Model)
清華大學(xué)聯(lián)合智譜 AI 共同發(fā)布了 GLM-130B 模型。該模型基于完整的 Transformer 架構(gòu)，并引入了一些創(chuàng)新（如采用 DeepNorm 進行層后歸一化、使用旋轉(zhuǎn)式位置嵌入）。GLM-130B 擁有 1300 億參數(shù)，是在包含英文和中文的互聯(lián)網(wǎng)數(shù)據(jù)集上訓(xùn)練的，這些數(shù)據(jù)集包括 The Pile、WuDao 語料庫以及其他中文語料庫，共計 4000 億個詞元。在性能上，GLM-130B 與 GPT-3 模型不相上下。
較小或更專業(yè)的開源大語言模型
近期，一些較小型的開源模型也相繼發(fā)布，這些模型主要服務(wù)于科研領(lǐng)域：Meta 推出了 Galactica 系列的大型語言模型（LLM），其中規(guī)模最大的模型擁有高達 120B 參數(shù)，這些模型是在科學(xué)文獻中的 1060 億個詞元基礎(chǔ)上進行預(yù)訓(xùn)練的。EleutherAI 則發(fā)布了 GPT-NeoX-20B 模型，這是一個完全開源的僅解碼器式 Transformer 模型（包括模型架構(gòu)、權(quán)重和數(shù)據(jù)），在 5000 億詞元上經(jīng)過訓(xùn)練，并采用了 RoPE 以及對注意力機制和初始化過程的若干改進，為科學(xué)研究提供了一個完整的工具集。

這些巨大的模型令人振奮，然而，它們的運行成本也高得驚人！在進行推理計算（即從模型中得出預(yù)測結(jié)果）時，模型必須被加載到內(nèi)存中，而一個具有一千億參數(shù)的模型往往需要占用高達 220GB 的內(nèi)存空間（這個過程我們將在后文中詳細闡述），這樣的內(nèi)存需求對于大多數(shù)機構(gòu)和專業(yè)人士來說都是難以承擔(dān)的！

然而，2022 年 3 月，DeepMind 發(fā)表了一篇論文，探討了在固定計算預(yù)算條件下，模型參數(shù)與數(shù)據(jù)量的最優(yōu)配比。簡而言之，如果你的模型訓(xùn)練預(yù)算有限，應(yīng)該如何平衡模型大小和數(shù)據(jù)規(guī)模？研究者們發(fā)現(xiàn)，在平均計算預(yù)算下，對于大型語言模型（LLMs），更高效的策略是維持一個相對較小的模型，并在更廣泛的數(shù)據(jù)集上進行訓(xùn)練。他們開發(fā)的模型 Chinchilla（未公開）擁有 700 億個參數(shù)，僅為某些大型模型參數(shù)總數(shù)的三分之一，卻在高達 1.4 萬億個詞元的數(shù)據(jù)集上進行了訓(xùn)練，是其他模型所使用數(shù)據(jù)量的三到四倍。結(jié)果顯示，Chinchilla 在性能上不僅媲美甚至超越了其他更大的同類型模型，無論是開源還是非開源的。

這種范式的變化，盡管可能已在封閉的實驗室環(huán)境中為人所知，但它卻讓整個開放的科學(xué)界感到措手不及。

?? 2023, 開放發(fā)布之年

小型大語言模型的崛起

2023 年，僅解碼器（decoder-only）式的 Transformer 模型迎來了爆發(fā)式增長。幾乎每月都有新的預(yù)訓(xùn)練模型問世，發(fā)展速度之快以至于漸漸演變?yōu)槊恐苌踔撩咳斩加行履Ｐ偷耐瞥觥eta 在 2 月推出了 LLaMA 模型；Eleuther AI 在 4 月帶來了 Pythia 模型；MosaicML 在 5 月推出了 MPT 模型；Salesforce 和 TIIUAE 則在 6 月分別發(fā)布了 X-GEN 和 Falcon 模型。Meta 緊隨其后，在 7 月發(fā)布了 LLaMA 的升級版本 LLaMA 2。進入下半年，9 月阿里巴巴發(fā)布了 Qwen 模型；Mistral.AI 推出了同名 Mistral 模型；01-ai 在 11 月發(fā)布了 Yi 模型；Deci 推出了 DeciLM 模型；而 Upstage 則在 12 月帶來了 Phi-2 和 SOLAR 模型。這一系列的模型發(fā)布，不僅展示了人工智能領(lǐng)域的快速進步，也預(yù)示著技術(shù)的不斷迭代與革新。

這些發(fā)布包括了：a) 模型權(quán)重（在不同程度的開源許可下）；b) 對于較小規(guī)模的模型（介于 30 億至 700 億參數(shù)之間），它們的性能都相當(dāng)出色，因此立刻被社區(qū)采用。這些模型幾乎都采用僅解碼器的 Transformer 架構(gòu)，并且進行了各種調(diào)整（比如 ALiBi 或 RoPE、RMS 預(yù)歸一化、SwiGLU），以及對注意力函數(shù)的一些改變（如 Flash-Attention、GQA、滑動窗口注意力），并且在不同的代碼庫實現(xiàn)中進行了優(yōu)化，以提高訓(xùn)練或推理速度。這些調(diào)整很可能在一定程度上影響模型的性能和訓(xùn)練速度；然而，由于所有架構(gòu)都已經(jīng)連同權(quán)重一起公開發(fā)布，剩下的核心差異主要在于訓(xùn)練數(shù)據(jù)和模型的許可方式。

Meta AI 發(fā)布的 LLaMA 系列是該系列中的首款模型。研究團隊的目標(biāo)是在既定的計算預(yù)算內(nèi)訓(xùn)練不同規(guī)模的模型，以求達到最優(yōu)性能。他們首次明確將訓(xùn)練預(yù)算與推理成本（即在滿足特定性能目標(biāo)時，模型推理所需的成本）并重考慮。基于這樣的考量，他們選擇在更大量的數(shù)據(jù)和更多的訓(xùn)練步驟上，訓(xùn)練規(guī)模較小的模型，以期在較小的模型尺度上獲得更高的性能（這是對訓(xùn)練計算效率的一種權(quán)衡）。在 LLaMA 系列中，最大的模型擁有 650 億參數(shù)，經(jīng)過了 1.4 萬億的詞元訓(xùn)練，而規(guī)模較小的模型 —— 分別具有 60 億和 130 億參數(shù) —— 則在 1 萬億詞元訓(xùn)練后完成。在大多數(shù)基準(zhǔn)測試中，130 億參數(shù)的 LLaMA 小型模型的表現(xiàn)超過了 GPT-3，而 650 億參數(shù)的 LLaMA 大模型在發(fā)布時則代表了最先進的技術(shù)水平。然而，這些模型的權(quán)重是以非商業(yè)許可的形式發(fā)布的，這限制了它們在社區(qū)中的應(yīng)用范圍。

Eleuther AI 是一個開源的非營利實驗室，它發(fā)布了一系列名為 Pythia 的大型語言模型（LLMs）。這些模型有不同的規(guī)模，全部采用公開數(shù)據(jù)進行訓(xùn)練，目的是為了幫助研究人員理解大型語言模型訓(xùn)練的不同階段。有關(guān) Pythia 模型的更多信息，可以通過它們在 Hugging Face 上的系列合集查看。

MosaicML 公司在兩個月后推出了 MPT 模型，該模型的性能優(yōu)越，并且支持商業(yè)用途，同時公司還公開了其訓(xùn)練的具體細節(jié)。MPT 的首個版本是一個 7B 的模型，緊接著在 6 月份，公司發(fā)布了一個更大的 30B 版本。這兩個模型都是基于 1 萬億個英語和編程語言的詞元訓(xùn)練而成，訓(xùn)練數(shù)據(jù)包括了 C4、CommonCrawl、The Stack、S2ORC 等數(shù)據(jù)集。

MPT 模型推出后不久，TIIUAE 團隊便發(fā)布了 Falcon 系列模型中的 7B 和 30B 版本。這些模型在 1 至 1.5 萬億個英文和代碼詞元上進行了訓(xùn)練，訓(xùn)練數(shù)據(jù)包括來自 RefinedWeb、Project Gutenberg、Reddit、*、GitHub、arXiv、Wikipedia 等多個來源。同年晚些時候，TIIUAE 還發(fā)布了一款更為龐大的 180B 模型。Falcon 模型的細節(jié)、所用數(shù)據(jù)以及訓(xùn)練過程均在一份技術(shù)報告及隨后發(fā)表的研究論文中有詳盡的描述。

先前的模型在公開時通常會公開其數(shù)據(jù)集，但隨后推出的模型很少公布其訓(xùn)練過程中使用的具體信息，這使得重現(xiàn)它們的成果變得困難。盡管如此，這些模型通過發(fā)布它們的權(quán)重參數(shù)，為研究社區(qū)提供了一個研究和進一步開發(fā)的起點。

Salesforce 在夏初推出了 X-Gen 模型，這是一款擁有 70 億參數(shù)的模型，訓(xùn)練數(shù)據(jù)包括了 15 萬億個 “自然語言和代碼” 詞元，訓(xùn)練過程分為多個步驟，并采用了數(shù)據(jù)調(diào)度系統(tǒng)（并非所有數(shù)據(jù)同時輸入模型）。

X-Gen 在 Meta 推出的更為引人注目的新的 LLaMA-2 家族的陰影下顯得有些黯然失色。LLaMA-2 是 Meta 推出的一個新的模型系列，規(guī)模從 7B 到 70B 不等，這些模型是在 2 萬億個 “來自公開來源的詞元” 上訓(xùn)練而成的，采用了寬松的社區(qū)許可證，并經(jīng)過了人類偏好的精細調(diào)整（RLHF），即所謂的對齊過程。

隨后，新興初創(chuàng)企業(yè) Mistral 推出了其首款模型 ——Mistral-7B，該模型是基于互聯(lián)網(wǎng)公開數(shù)據(jù)集的大量數(shù)據(jù)訓(xùn)練而成，具體數(shù)據(jù)量尚未公布。隨著 2023 年末的臨近，模型發(fā)布活動日益頻繁。Mistral 緊接著發(fā)布了更為龐大的第二款模型 Mixtral 8x7B。與此同時，Deci.AI 公司也帶來了其令人矚目的首款模型 DeciLM，upstage 公司也不甘落后，推出了規(guī)模更大的 SOLAR 模型。這些模型均采用了來源和數(shù)量未公開的數(shù)據(jù)進行訓(xùn)練。在各大排行榜和公開基準(zhǔn)測試中，這些模型均展現(xiàn)出穩(wěn)步的進步。

在 2023 年年底，值得關(guān)注的一大事件是中國訓(xùn)練并公開發(fā)布了多個性能顯著提升的模型。其中，阿里巴巴推出了其雙語（英漢）模型 Qwen 系列，其參數(shù)規(guī)模從 70 億至 700 億不等，經(jīng)過了 240 億詞元數(shù)據(jù)的訓(xùn)練。與此同時，01-AI 公司也發(fā)布了 Yi 系列模型，其參數(shù)規(guī)模介于 60 億至 340 億之間，訓(xùn)練數(shù)據(jù)量達到了 300 億詞元。這些模型在公開排行榜（如 Open LLM leaderboard）以及一些極具挑戰(zhàn)性的基準(zhǔn)測試（例如 Skill-Mix）中的表現(xiàn)，均超過了之前的模型。2023 年底的另一強有力的新競爭者是 DeepSeek AI，他們推出了 “DeepSeek-Coder”，該模型從零開始訓(xùn)練了 200 億詞元數(shù)據(jù)，其中包含 87% 的代碼和 13% 的英漢混合自然語言。

隨處可見的對話模型

2023 年，與前一年相比，幾乎所有新發(fā)布的預(yù)訓(xùn)練模型都配備了預(yù)訓(xùn)練版本和對話微調(diào)版本，這些版本采納了多種現(xiàn)有的調(diào)整方法。盡管適用于聊天環(huán)境的模型調(diào)整技術(shù)在 2022 年及以前已有所開發(fā)，但這些技術(shù)在 2023 年得到了廣泛應(yīng)用并迅速興起，這突顯了聊天模型在普羅大眾中使用的快速增長，以及通過與模型的互動對其進行的人工評估（即 “氛圍檢查” 評估）。本文將詳細介紹幾種著名的訓(xùn)練調(diào)整預(yù)訓(xùn)練模型以進行聊天的方法，實際上，相關(guān)的變體還有很多！

基于對話的微調(diào) 是一種特殊形式的監(jiān)督式微調(diào)。在這種方法中，我們使用的標(biāo)注數(shù)據(jù)是對話形式的，類似于社交媒體上的多輪對話記錄。通過這種方式，可以對模型進行特定的微調(diào)。在這個過程中，我們可以采用與模型訓(xùn)練階段相同的技術(shù)。例如，在處理僅解碼器 Transformer 模型時，可以訓(xùn)練模型通過自回歸方法，即逐一預(yù)測接下來的詞元。

指令微調(diào)（Instruction-based Fine-Tuning，IFT）采用相同的方法，但使用指令數(shù)據(jù)集，該數(shù)據(jù)集包含一系列類似查詢的提示以及答案（如果需要，還可以包含可選的附加輸入）。這些數(shù)據(jù)集教導(dǎo)模型如何遵循指示，并且可以是人類生成的，也可以是大型語言模型生成的。

利用大規(guī)模模型輸出的合成數(shù)據(jù)集（由模型生成的數(shù)據(jù)集，例如來自 GPT-4 的生成，可以是來自指示或用戶與模型之間的交互）是實現(xiàn)指導(dǎo)微調(diào)和聊天微調(diào)的一種方式。這通常被稱為 “蒸餾”，因為它涉及從性能較高的模型中獲取知識，以訓(xùn)練或微調(diào)較小的模型。

這兩種方法都相對容易執(zhí)行：你只需找到或創(chuàng)建相應(yīng)的數(shù)據(jù)集，然后采用與訓(xùn)練時相同的技術(shù)對模型進行調(diào)整即可。去年，發(fā)布了眾多指導(dǎo)性數(shù)據(jù)集，它們有效提升了模型在對話場景中的表現(xiàn)。想要了解更多關(guān)于此主題的信息，可以參閱這篇介紹性博文的鏈接。然而，盡管模型的性能有了顯著提升，但它們?nèi)晕茨芡耆_到人類的預(yù)期水平。

從人類反饋中強化學(xué)習(xí)（Reinforcement Learning from Human Feedback，RLHF）是一項旨在使模型輸出與人類偏好（基于特定標(biāo)準(zhǔn)）相一致的特定方法。具體操作流程如下：模型根據(jù)給定的提示生成多個潛在答案；人類評估者對這些答案進行排序；然后，這些排序結(jié)果用于訓(xùn)練一個偏好模型（該模型學(xué)習(xí)如何給出反映人類對答案偏好程度的評分）；最后，利用偏好模型通過強化學(xué)習(xí)對語言模型進行進一步的微調(diào)。更詳細的信息，請參閱這篇博客文章，原始 RLHF 論文，或者 Anthropic 關(guān)于 RLHF 的論文。需要注意的是，這是一種成本較高的方法（注釋 / 排名 + 訓(xùn)練新模型 + 微調(diào)的整個過程成本很高），主要用于確保模型的輸出與安全目標(biāo)相符。為了降低成本，人們開發(fā)了一種低成本的變體方法，即利用高質(zhì)量的語言模型來對模型輸出進行評分，而不是完全依賴人類評價，這種方法稱為從 人工智能反饋中學(xué)習(xí)的強化學(xué)習(xí)（Reinforcement Learning from AI Feedback, RLAIF）。

直接偏好優(yōu)化（Direct Preference Optimization, DPO）是 RLHF 的另一種變體，其核心優(yōu)勢在于無需訓(xùn)練和運用獨立的偏好模型。這一方法同樣需要人類或人工智能生成的排序數(shù)據(jù)集，但它通過直接利用這些數(shù)據(jù)來更新模型，即通過對比模型現(xiàn)有的策略（即預(yù)測行為）與理想的策略（即能夠預(yù)測出最優(yōu)排序答案的行為）。換言之，模型本身即扮演了對齊和偏好模型的雙重角色，這不僅簡化了優(yōu)化流程，而且根據(jù)報告，還能夠?qū)崿F(xiàn)與其他方法相媲美的性能水平。

回到來自（大多數(shù)）私企的小型開放權(quán)重模型的浪潮，其中很多模型都發(fā)布了經(jīng)過精細調(diào)整的對應(yīng)版本：MPT-7B 還配備了一個指令微調(diào)和一個對話版本，F(xiàn)alcon 和 XGen 模型的指令微調(diào)版本在年底發(fā)布，Llama-2、Qwen 和 Yi 發(fā)布了對話版本，DeciLM 則發(fā)布了一個指令微調(diào)版本。Llama-2 的發(fā)布尤其引人注目，因為它在預(yù)訓(xùn)練和指令微調(diào)模型中都特別注重安全性。

社區(qū)的進展如何？

雖然隨著新模型的發(fā)布，聊天模型和指令微調(diào)模型通常會立即推出，但社區(qū)成員和研究人員并沒有把這看作是理所應(yīng)當(dāng)?shù)摹Ｔ谶@些基礎(chǔ)模型提供的沃土上，涌現(xiàn)出了一個龐大而活躍的微調(diào)愛好者社區(qū)。這些微調(diào)專家經(jīng)常會構(gòu)建新的數(shù)據(jù)集，并對模型進行細致的微調(diào)，以此來展現(xiàn)新發(fā)布模型的出色性能。

在 2023 年伊始，一些專為指令交互和對話微調(diào)設(shè)計的數(shù)據(jù)集已經(jīng)被發(fā)布。例如，代表人類偏好的數(shù)據(jù)集包括 OpenAI 的 WebGPT 數(shù)據(jù)集、Anthropic 的 HH-RLHF 數(shù)據(jù)集以及 OpenAI 的摘要數(shù)據(jù)集，它們在這一領(lǐng)域是開拓者。指令數(shù)據(jù)集的例子包括 BigScience 的公共提示池、Google 的 FLAN 1 和 2（FLAN 數(shù)據(jù)集）、AllenAI 的自然指令數(shù)據(jù)集、由不同機構(gòu)的研究人員開發(fā)的自動生成指令框架自我指令、由專家創(chuàng)建的指令基準(zhǔn) 超自然指令（有時用作微調(diào)數(shù)據(jù)），以及由特拉維夫大學(xué)和 Meta 合作生成的自動指令數(shù)據(jù)集非自然指令等。

?? 冬 2022/2023: 一月，來自中國多個研究機構(gòu)的研究人員共同發(fā)布了人類 ChatGPT 指令語料庫（HC3），其中包含了人類與模型對各種問題的回答。3 月份，發(fā)布活動接連不斷：斯坦福大學(xué)推出了 Alpaca 模型，這是首個遵循指令的 LLaMA 模型（7B），以及相關(guān)的數(shù)據(jù)集，包括用大型語言模型生成的 52K 條指令。非營利開源實驗室 LAION 發(fā)布了開放指令通用數(shù)據(jù)集（OIG），包含 4300 萬條指令，這些指令既有通過數(shù)據(jù)增強創(chuàng)建的，也有編譯自其他現(xiàn)有數(shù)據(jù)源的。同月，位于加州大學(xué)伯克利分校的 LMSYS 組織發(fā)布了 Vicuna，這也是一個基于 ChatGPT 聊天數(shù)據(jù)的 LLaMA 精調(diào)模型（13B），這些聊天數(shù)據(jù)是用戶與 ChatGPT 之間的對話，由用戶自己公開分享在 ShareGPT 上。還發(fā)布了 Guanaco 數(shù)據(jù)集，它是 Alpaca 數(shù)據(jù)集的擴展版（增加了 50 萬條多語言條目），以及相關(guān)的 LLaMA-7B 精調(diào)模型。

?? 春：四月，伯克利人工智能研究實驗室（Berkeley AI Research lab，BAIR）發(fā)布了 Koala，這是一個經(jīng)過聊天調(diào)優(yōu)的 LLaMA 模型，它使用了多個先前的數(shù)據(jù)集（包括 Alpaca、HH-RLHF、WebGPT、ShareGPT），而 DataBricks 則發(fā)布了 Dolly 數(shù)據(jù)集，這是一個由 15K 條人工生成的指令組成的數(shù)據(jù)集，以及相關(guān)的 Pythia 微調(diào)模型。五月，清華大學(xué)發(fā)布了 UltraChat，這是一個包含 1.5M 對話指令的數(shù)據(jù)集，以及在該數(shù)據(jù)集上進行微調(diào)的 UltraLLaMA 模型。隨后，微軟發(fā)布了 GPT4-LLM 數(shù)據(jù)集 / 框架，用于生成 GPT4 的指令。六月，微軟研究院分享了一種新方法 Orca，通過使用大型模型的推理軌跡（逐步解釋其推理過程）來構(gòu)建指令數(shù)據(jù)集，該方法很快被社區(qū)（尤其是 Alignementlab.ai）復(fù)現(xiàn)，他們創(chuàng)建了 Open Orca 數(shù)據(jù)集，包含數(shù)百萬條條目，隨后用于微調(diào)多個模型（如 Llama、Mistral 等）。五月和六月期間，Camel-AI 發(fā)布了多個關(guān)于不同話題（物理、生物、化學(xué)等）的指令或聊天數(shù)據(jù)集，每個領(lǐng)域都有超過 20K 的示例。同樣在六月，發(fā)布了 Airoboros 框架，用于使用模型生成的數(shù)據(jù)微調(diào)模型（遵循自我指導(dǎo)方法），以及一系列的指令數(shù)據(jù)集。

?? 夏：八月，由中國的非營利組織 OpenBMB 發(fā)布了 UltraLM（一種基于 LLaMA 的高性能聊天模型微調(diào)版本），隨后在九月，他們又發(fā)布了相關(guān)的偏好數(shù)據(jù)集 UltraFeedback，這是一個包含與 GPT4 對比的輸入反饋數(shù)據(jù)集，并附有注釋。在整個夏天，一個名為 NousResearch 的集體發(fā)布了多個基于私有和公開指導(dǎo)數(shù)據(jù)集的微調(diào)版本（特別是 Hermes 和 Capybara 系列）。九月，清華大學(xué)的一個學(xué)生團隊發(fā)布了 OpenChat，這是一個應(yīng)用了新的強化學(xué)習(xí)微調(diào)策略的 LLaMA 微調(diào)版本。

?? 秋：十月，Hugging Face 發(fā)布了 Zephyr 模型，這是一個在 UltraChat 和 UltraFeedback 上使用 DPO 和 AIF 技術(shù)對 Mistral 模型進行微調(diào)的產(chǎn)物。同時，社區(qū)成員發(fā)布了 OpenHermes 2，這是一個在來自網(wǎng)絡(luò)或使用 Axolotl 生成的 900K 條目上對 Mistral-7B 模型進行微調(diào)的版本。Lmsys 發(fā)布了 LMSYS-Chat-1M，包含了與 25 個大型語言模型（LLMs）的真實用戶對話。十一月，OpenBuddy 發(fā)布了 OpenBuddy-Zephyr，這是一個對 Zephyr 模型進行微調(diào)的多輪對話模型。同月，NVIDIA 發(fā)布了 HelpSteer 數(shù)據(jù)集，這是一個對齊微調(diào)數(shù)據(jù)集，提供了提示、相關(guān)模型回應(yīng)以及基于幾個標(biāo)準(zhǔn)對這些回答的評分，而微軟研究院則發(fā)布了 Orca-2 模型，這是一個在新的合成推理數(shù)據(jù)集上對 Llama 2 模型進行微調(diào)的版本。十二月，伯克利大學(xué)發(fā)布了 Starling 模型，這是一個對 Open-Chat 模型進行 RLAIF 微調(diào)的版本，以及相關(guān)的數(shù)據(jù)集 Nectar，包含了 20 萬條比較數(shù)據(jù)。

正如我們看到的，今年整個領(lǐng)域的發(fā)展既依賴于通過使用高質(zhì)量的預(yù)訓(xùn)練大型語言模型（LLMs）創(chuàng)建新數(shù)據(jù)集，也依賴于社區(qū)發(fā)布的各種開源模型，這使得該領(lǐng)域進步飛速！如果你現(xiàn)在在模型名稱中看到這些名字中的任何一個，你就能夠大概了解它的來源了??。

還有一些更專業(yè)的數(shù)據(jù)集，例如用于數(shù)學(xué)問題微調(diào)的 MetaMath 和 MathInstruct，以及涉及數(shù)學(xué)和代碼指令的 Evol-Instruct，還有 CodeAlpaca 與 CodeCapybara 等代碼指令相關(guān)的數(shù)據(jù)集也已發(fā)布。雖然這些數(shù)據(jù)集同樣被用于提升模型在特定任務(wù)上的表現(xiàn)，但我們在此不會詳細介紹它們。你還可以訪問令人心動的指令數(shù)據(jù)集來查看其他相關(guān)數(shù)據(jù)集的集合。*

開啟定制模型的大門

模型融合：極致的定制化

在開源社區(qū)的典范實踐中，一個重要的里程碑是模型與數(shù)據(jù)的融合。隨著每一次代碼合并或提交，追溯所使用數(shù)據(jù)的來源變得愈發(fā)復(fù)雜 —— 許多公開的數(shù)據(jù)集本身就是其他數(shù)據(jù)集的匯編。同樣，由于卓越性能的模型往往是在相似模型的基礎(chǔ)上經(jīng)過層層微調(diào)得來的（可參考 Mistral 的衍生模型樹），模型的發(fā)展歷史也變得難以梳理。在這篇摘要中，我們尚未有足夠的篇幅深入探討這一引人入勝的技術(shù)領(lǐng)域，但在最后，我們將簡要介紹一下它的概念。

然而，“模型融合” 究竟是什么意思呢？

模型融合 是一種將不同模型的權(quán)重融合到一個單一模型中的方法，其理想目標(biāo)是將每個模型的各自優(yōu)勢結(jié)合在一個統(tǒng)一的模型中。目前已有一些技術(shù)實現(xiàn)了這一目標(biāo)，這些技術(shù)大多在社區(qū)論壇中得到擴展和發(fā)布，這是一個全球范圍內(nèi)的去中心化研究的典型案例，涵蓋了從業(yè)者、研究人員到業(yè)余愛好者的廣泛社區(qū)。其中一種最簡單的公開方法是平均一組具有共同架構(gòu)的模型的參數(shù)（示例 1，示例 2），但還存在更復(fù)雜的參數(shù)組合方法，例如確定每個模型中對特定任務(wù)最有影響力的參數(shù)（加權(quán)平均），或者在合并前考慮模型間參數(shù)的相互干擾，從而選擇保留哪些參數(shù)（關(guān)聯(lián)融合）。

這些技術(shù)使任何人都能輕松地生成模型的組合，而且由于大多數(shù)現(xiàn)代模型都是基于同一架構(gòu)的變體，這一過程變得尤為簡便。這也是 Open LLM leaderboard 上一些模型名稱如 llama2-zephyr-orca-ultra 的原因。這個特定的例子很可能是將 llama2 和 zephyr 模型合并后，再在 orca 和 ultra 數(shù)據(jù)集上進行微調(diào)的結(jié)果。通常，更多的細節(jié)可以在 Hugging Face 中心的相應(yīng)模型卡片上找到。

參數(shù)高效微調(diào)：觸手可及的個性化體驗

有時候，你可能需要進行更為細致的個性化調(diào)整，但受限于硬件顯存大小，無法加載完整模型進行微調(diào)。其實，你知道嗎？微調(diào)時并不必須要用到模型的全部。

你或許想嘗試一種叫做 參數(shù)高效微調(diào)（Parameter-Efficient Fine-Tuning，PEFT）的方法。
這項技術(shù)首先會凍結(jié)你所關(guān)注的預(yù)訓(xùn)練模型中的參數(shù)，然后在其基礎(chǔ)上附加一些新的參數(shù)層，也就是我們所說的 “適配器”。接下來，你只需對這些專為你的任務(wù)設(shè)計的輕量級適配器權(quán)重進行微調(diào)，這些權(quán)重遠小于原始模型的規(guī)模。這樣，你僅需分享你的小型適配器權(quán)重（以及底層模型）即可！你可以在這里探索一系列引人入勝的 PEFT 技術(shù)。

量化：模型普及于各處

我們已經(jīng)看到，性能出色的模型現(xiàn)在形態(tài)各異…… 但即便如此，并不意味著它們對所有人都是觸手可及的！一個擁有 300 億參數(shù)的模型僅僅加載到內(nèi)存中（還未開始使用）就可能需要超過 66GB 的 RAM，而并非社區(qū)中的每個人都有能力配備這樣的硬件。

這就是量化技術(shù)的用武之地！量化是一種特殊的技術(shù)，它通過改變模型參數(shù)的精度來減少模型的大小。

量化是什么意思呢？

在計算機中，數(shù)字是以一定的精度存儲的，例如 float32、float16、int8 等。精度不僅指明了數(shù)字類型（是浮點數(shù)還是整數(shù)），同時也指出了數(shù)字存儲所占用的內(nèi)存大小：例如 float32 是在計算機上以 32 位存儲的浮點數(shù)。要了解更深入的解釋，請參見這個鏈接。因此，數(shù)據(jù)的精度越高，它所占用的物理內(nèi)存就越多，這是因為需要更多的位來存儲這些數(shù)據(jù)。

因此，如果你降低精度，就會減少模型參數(shù)在存儲上占用的內(nèi)存，進而減小模型的大小！這也意味著你降低了計算的實際精度，可能會降低模型的性能。然而，我們發(fā)現(xiàn)，在較大的模型上，這種性能下降實際上是非常有限的。

回到我們之前的例子中，一個含有 300 億參數(shù)的模型，在使用 float16 格式時需要不到 66GB 的內(nèi)存。如果采用 8bit，內(nèi)存需求將減半至 33GB；若使用 4bit 編碼，則只需大約 16GB，進一步降低了內(nèi)存的要求，使得模型更易于部署和使用。

精度轉(zhuǎn)換有多種方法，涉及不同的 “轉(zhuǎn)換” 策略，每種策略都有其獨特的優(yōu)勢和局限。目前流行的轉(zhuǎn)換方法包括 bitsandbytes、GPTQ, 和 AWQ 等。有些開發(fā)者，例如 TheBloke，甚至正在將所有流行的模型進行轉(zhuǎn)換，以便更容易地被社區(qū)使用。所有這些方法都是相對較新并且仍在不斷發(fā)展之中，我們期待隨著時間的推移，這些技術(shù)能夠取得更多的進步。

接下來呢？

年尾尚未到來！在這最后時刻，已經(jīng)迎來了一些驚喜：新的架構(gòu)是否終將超越簡單高效的 Transformer 模型呢？

最新發(fā)布包括：

混合專家模型：
- Mixtral，該模型由 8 個子模型（僅解碼器的 Transformer 模型）組成，對于每個輸入，一個路由器會選擇兩個最佳子模型并將它們的輸出求和。
幾種狀態(tài)空間模型（通過潛在空間將輸入映射到輸出的模型，可以根據(jù)任務(wù)需求表達為 RNN 或 CNN）：
- Mamba，增加了選擇機制的狀態(tài)空間模型
- Striped Hyena，具有快速卷積核的狀態(tài)空間模型

目前來說，這些新方法是否會取代 Transformer 模型還為時尚早，但狀態(tài)空間模型確實非常有前景！

要點回顧

今年，從大型企業(yè)到初創(chuàng)公司，再到研究實驗室，各種主體紛紛開放發(fā)布模型，這極大地賦能了社區(qū)，使其以前所未有的速度開始進行實驗和探索。
模型公告的開放性呈現(xiàn)出起伏變化，從年初的公開發(fā)布（數(shù)據(jù)集組合、權(quán)重、架構(gòu)）到年末對訓(xùn)練數(shù)據(jù)守口如瓶，導(dǎo)致無法復(fù)現(xiàn)。
開源模型出現(xiàn)在包括中國在內(nèi)許多新的地方，有幾個新的參與者將自己定位為語言模型競爭中的強勁競爭者。
個性化定制的可能性達到了前所未有的高度，新策略的出現(xiàn)（如強化學(xué)習(xí)優(yōu)化的微調(diào)、適配器、合并技術(shù)），雖然這僅僅是個開始。
更小的模型尺寸和量化升級使得大型語言模型對更多人來說變得真正唾手可得！
新的架構(gòu)也隨之出現(xiàn) —— 它們是否最終會取代 Transformer 架構(gòu)，仍是一個值得關(guān)注的問題。

各位朋友們，就是這樣了！

希望你喜歡我們今年的回顧，從中學(xué)到了一些知識，并且和我一樣，對于人工智能進步現(xiàn)在如此依賴開源和社區(qū)努力感到無比熱情！??

英文原文: https://huggingface.co/blog/2023-in-llms
原文作者：Clémentine Fourrier
譯者: Xinyu Yang (楊新宇)，字節(jié)跳動算法工程師，工作方向為通過 SFT、RL 提升大模型 Math、Reasoning 能力。

總結(jié)

以上是生活随笔為你收集整理的Hugging Face 年度回顾：2023，开源大模型之年的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： C++ Qt开发：SqlRelation
下一篇：有意思，我的GitHub账号值$2380