當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

从大型语言模型LLM走向人工通用智能AGI的改进方向（public）

發布時間：2024/1/18 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了从大型语言模型LLM走向人工通用智能AGI的改进方向（public）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

從大型語言模型走向人工通用智能AGI

返回論文和資料目錄

1.導讀

這篇博客主要基于《Sparks of Artificial General Intelligence: Early experiments with GPT-4》文中第9和第10節、以及我自己對當前LLM和AGI的理解。給出大型語言模型走向AGI時改進的方向。

2.14個問題及改進方向（動態持續更新）

1.縮減模型

模型約減的目標是使用盡可能小的模型達到盡可能優的性能。當前大語言模型的模型規模是10B-500B。未來AGI必然是要普及的，所以縮減模型是一個重點研究方向。

導致的問題：

模型的訓練成本和使用成本高，類似ChatGPT等這些優異性能的大模型每訓練一次需要上千萬美金，而在使用時，模型輸入輸出一次就需要經過整個大模型，導致使用成本巨大。

模型難以推廣到個人。與世界上第一臺電腦類似，如果后續沒有個人電腦的普及，相信計算機至今都只存在大型科研或軍事用途上。模型大導致現在大模型的研究主要在工業界和少數頂級科研機構上，這不僅導致研究工作開展困難，還使得模型無法推廣到平民。這也間接導致了后面模型難以進行個性化的發展。

改進的具體方向：

從具體模型方面入手，采用更優的神經網絡結構，損失函數，優化器，詞向量編碼。目前已經有少量的工作在這方面取得了一定的成績，例如LLaMA。

與工具結合。在一些特定的場景，大模型仍然難以擴展，例如數學計算等。一個大型語言模型再強也難以具備一個計算器的的數學運算能力。因此，與其不斷努力為了保持性能而不降低模型規模，還不如研究如何將一些模型低耦合的能力分給其他工具實現，并如何將工具與大模型整合的技術。與工具結合這一方向詳細展開可見第11點。

2.個性化

個性化是指模型為每個用戶提供個性化服務。未來AGI必然是要普及的，所以模型如何實現個性化是一個重點研究方向。

導致的問題：

在許多場景，模型需要為個人或組織提供個性化服務。例如，在教育場景中，我們期望模型能夠根據學生在學習方面的進步去理解并適應，給出學生不同階段的學習幫助。同時針對不同的學生，模型需要給出不同的教學方法。再例如，在日常聊天場景中，模型面向小孩和大人的模型輸出可能就不一樣。針對小孩，模型不應該輸出不適合未成年人的內容。同時，聊天中需要注意正確的引導孩子。

改進的具體方向：

元指令。這是《Sparks of Artificial General Intelligence: Early experiments with GPT-4》給出的一個方法。它的思路是每次通過指令輸入的方法，讓模型知道當前的用戶是誰，之前和他說過什么，目前什么樣的輸出適合他。雖然這種方法局限性大且不夠有效，但確實是最簡單的一種思路，目前很火的AutoGPT就是這么干的，確實能夠實現一部分個性化能力。

3.長期記憶

長期記憶指大模型需要記住長文本內容，形成新的認知，或類似人類具備情景記憶。這是大模型一個非常大的缺陷，也是實現AGI必然要解決的問題。

導致的問題：

模型無法應對需要長期記憶的場景。例如當使用大模型閱讀一本書，模型閱讀第2章內容時可能第一章內容就忘了，人物和事件根本記不住。在源代碼中，對類和函數的引用可能離定義它們的地方很遠。在定理證明中，證明需要利用先前定義的引理。雖然目前GPT-4一次輸入支持的最大token數已經提升到25000，但想實現閱讀一本書，仍然非常困難。再例如，目前已經有工作研究將機器人與ChatGPT結合，而此時機器人有個很大問題是無法類似人類具備事件記憶，無法記住什么時候發生了什么事，遇見了什么人。

改進的具體方向：

結合數據庫或知識圖譜相關技術。目前AutoGPT就采用了這種方法，確實具備了一部分長期記憶能力。

構建一個長期記憶模型M并結合數據庫技術。類似的想法目前清華有做類似的工作ChatDB。

4.置信校準

置信校準指的是模型需要判斷事件的真假。當前LLM經常會輸出假事實，例如，你讓LLM寫一首李白的詩，它的輸出雖然是詩，但卻是它自己瞎編的而不是李白的。你讓他給你一篇關于XX領域的參考文獻，它的輸出像模像樣，但真的去谷歌學術上找，發現是找不到對應的文獻的。

導致的問題：

LLM無法分別是非，它的認知主要基于訓練集，不會自己去思考和判斷什么是真什么是假。在實際使用的過程中，無法輸出保真答案。

改進的具體方向：

無

5.持續學習

持續學習指的是模型需要根據周圍的環境更新自身。模型訓練好一次后，需要能夠持續不斷地學習。

導致的問題：

當前模型無法更新。具體地，存在兩種情況。第一種，當一個模型訓練好后，假設我們的計算資源得到了更新，我們當前需要一個更大的模型。此時，當前LLM面臨的情況是在一個參數量更大的模型上完全重新訓練；第二種，當模型在使用時，我們目前比較好的方式是使用RLHF的方法進行微調，使得模型能夠一定程度上得到更新，但這種方式不是實時的，而且更新效率低需要對整個模型進行調節。

改進的具體方向：

無

6.計劃和目標

計劃和目標指模型需要具備制定計劃和目標的能力。

導致的問題：

當模型需要處理的問題復雜時，模型無法制定計劃和目標對問題進行簡化，進而有效地解決問題。例如，人完成去華山旅游這件事時，需要把這個目標進行分解，再依次完成。比如，首先需要檢查自己有多少錢，然后搜索去的交通工具，接著需要訂酒店，購買上山物資，再接著規劃行動路線，最后坐車回家。其中里面的每個環節可能又可分成多個步驟。比如，訂酒店要考慮價格和位置，考慮訂幾人房等。這么一個復雜目標需要合適的計劃，并制定一系列的目標實現。

另外一方面，模型無法指定提升自己的目標導致無法主動學習，進而使得模型性能無法離線提升。

改進的具體方向：

指令提示+短期記憶：目前AutoGPT就采取了類似的方式實現，它將一個任務不斷通過prompt的方式進行提示和拆解，最終指定多個子目標，一步一步實現。這種方式能夠一定程度上實現模型的規劃和目標能力。

7.數據集收集和生成

數據集收集和生成指模型需要配合合適的數據集收集和生成方法。

導致的問題：

模型性能不高。近期，LLaMA等大模型論文中已經顯示，即使是規模小的大模型，擴大數據集也能幫助進一步提升性能。反過來講，通過合適的方式收集或生成數據，并進一步用于訓練模型可以有效地提升大模型的性能。

改進的具體方向：

針對數據集收集，可以重點研究模型自主上網收集數據能力。最終，讓模型可以在網絡上自主收集數據并用于訓練提升性能。

針對數據集生成，可以借助已有的LLM模型生成數據集，幫助提升性能，例如WizardLM模型或Wizardcode，下圖給出了一個Wizardcode利用LLM生成針對Code領域的數據的例子。另外，可以研究讓模型自動生成數據，再用生成數據訓練模型，不斷迭代增強性能。最近facebook在計算機視覺領域發表了一篇針對圖像分割的論文。其中提到一個名為數據引擎的數據生成方法，使得數據生成和模型訓練變成一個閉環，達到了“分割萬物”的驚艷結果。

8.情感能力

情感能力指模型需要提升情感能力來幫助提升表現。

導致的問題：

不僅影響平時的模型表現，還導致無法應用于一些需要情感的場景。例如，在與人聊天的時候，如果對方是一個失戀的人。一個帶感情的回答，必然優于平鋪直敘地講道理或安慰。未來的寵物機器人或是機器人管家的也是重點研究方向，而這些場景顯然需要LLM發展情感能力。

改進的具體方向：

無

9.增強多模態

增強多模態指LLM模型同時考慮處理文本、圖像、音頻等。

導致的問題：

現有模型主要處理文本，少數可以同時處理圖像（GPT-4）。因此，缺乏了音頻數據的處理，例如，一個大模型無法判斷一首歌好不好聽。

改進的具體方向：

針對不同的多模態訓練不同的模型再進行整合。

10.與現有軟件工具結合

微信、淘寶、美團、QQ音樂、12306等。

11.與現有硬件工具結合

機器人手臂，仿生人皮膚，紅外線，NFC。

12.自我認知和世界認知

沒有自我認知何談置信校準。沒有世界認知如何消除偏見。

導致的問題：

目前LLM與AGI最大的差距其實是仍然是自我認知和世界認知。

改進的具體方向：

無

13.AGI的測試問題

目前多見于利用考試的方式，例如律師職業資格考試、GRE等。

14.AGI的安全問題和法律問題

暫時略過，讀者可以看看《Planing for AGI and beyond》

總結

以上是生活随笔為你收集整理的从大型语言模型LLM走向人工通用智能AGI的改进方向（public）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Winter my wiffffe!
下一篇： 9 机器学习支持向量机