當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

GPT-4报告解读

發(fā)布時(shí)間：2024/3/13 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 GPT-4报告解读小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

寫在前面

前面我們介紹了《GPT-4報(bào)告的整體情況》，那接下來展開介紹GPT-4報(bào)告中講的內(nèi)容。

前沿

在模型的結(jié)構(gòu)上，是基于Transformer結(jié)構(gòu)的大模型。接受多模態(tài)輸入，即圖像和文本輸入（但只能輸出文本）。使用公開的的數(shù)據(jù)訓(xùn)練，并使用人類反饋的增強(qiáng)學(xué)習(xí)(RLHF)微調(diào)模型，進(jìn)一步提升模型的整體效果，使其更符合人類習(xí)慣的輸出。報(bào)告中明確指出，不會(huì)給出模型的架構(gòu)(包括模型大小)、硬件、訓(xùn)練計(jì)算、數(shù)據(jù)集的構(gòu)成及訓(xùn)練方法等詳情。也就是說，我們無法想讀論文一樣了解GPT-4的實(shí)現(xiàn)細(xì)節(jié)。整個(gè)報(bào)告主要圍繞GPT-4的能力，局限和安全等方面展開。

GPT-4的報(bào)告的中英文摘要如下：

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer- based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.

我們報(bào)告了 GPT-4 的開發(fā)，這是一種大規(guī)模的多模式模型，可以接受圖像和文本輸入并產(chǎn)生文本輸出。雖然在許多現(xiàn)實(shí)場景中的能力不如人類，但GPT-4 在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測試中表現(xiàn)出人類水平的表現(xiàn)，包括通過模擬律師考試，得分在應(yīng)試者的前 10% 左右。 GPT-4 是一種基于Transformer 的模型，經(jīng)過預(yù)訓(xùn)練可以預(yù)測文檔中的下一個(gè)標(biāo)記。訓(xùn)練后的對齊過程會(huì)提高真實(shí)性和遵守所需行為的措施性能。該項(xiàng)目的核心組成部分包括可在廣泛范圍內(nèi)預(yù)測規(guī)模表現(xiàn)的基礎(chǔ)設(shè)施和優(yōu)化方法。這使我們能夠基于不超過GPT-4 計(jì)算量的萬分之一的訓(xùn)練模型準(zhǔn)確預(yù)測 GPT-4某些方面的性能。

從摘要中可以看出GPT-4的效果要比之前的GPT模型好很多，以及模型應(yīng)用落地必須要考慮的方面，接下來對報(bào)告的正文展開介紹。
GPT-4的能力(Capabilities )

可預(yù)測模型規(guī)模表現(xiàn)

GPT-4一個(gè)大的核心點(diǎn)事構(gòu)建一個(gè)可預(yù)測擴(kuò)展深度學(xué)習(xí)棧。主要的原因是像GPT-4這種非常大的訓(xùn)練，針對特定模型的微調(diào)是不可行的(時(shí)間+人力+投入成本不劃算)。為此，GPT開發(fā)了一套多尺度上具有可預(yù)測行為的基礎(chǔ)設(shè)置和優(yōu)化方法。這些改進(jìn)可以讓我們比較可靠的使用GPT-4萬分之一的小模型規(guī)模，預(yù)測GPT-4這種大模型在某些方面的性能(比如loss的走勢和在某些數(shù)據(jù)集上的通過率等指標(biāo))。用小參數(shù)量的模型，擬合一條X軸為模型規(guī)模，Y軸為某個(gè)指標(biāo)的曲線預(yù)測大規(guī)模參數(shù)下模型的表現(xiàn)，可以大大減少試錯(cuò)成本，提升研發(fā)效率，前景非常的不錯(cuò)。
為了預(yù)測GPT-4的loss，報(bào)告中使用最大計(jì)算量不超過待預(yù)測模型GPT-4規(guī)模的萬分之一的多個(gè)小模型，擬合一條曲線(scaling law)：

a,b,c是待確定的參數(shù)，通過幾個(gè)小規(guī)模的loss即可計(jì)算出a,b,c參數(shù)，然后根據(jù)該函數(shù)計(jì)算GPT-4的loss。下圖就是擬合模型loss的曲線圖，從圖中可以看出，很精準(zhǔn)的預(yù)測了GPT-4的loss。

同樣的，使用類似的方法可以預(yù)測其他可解釋性的指標(biāo)與模型規(guī)模的關(guān)系，比如在HumanEval評測上，找到了公式：
?
從實(shí)驗(yàn)上看，對于GPT-4的效果預(yù)測也是很精準(zhǔn)的，其曲線圖如下：

當(dāng)然，也存在某些表現(xiàn)難以預(yù)測，比如在“ Inverse Scaling Prize中提到的幾個(gè)任務(wù)，一般的模型如GPT-3.5都隨著模型規(guī)模效果變差，而GPT-4卻是相反的。
?
這種預(yù)測規(guī)模表現(xiàn)的能力在安全性上也是很重要的，報(bào)告提出希望致力于這方面的研究，也希望能夠成為一個(gè)大眾接受并樂于投入研究的領(lǐng)域。

模擬測試對比

對于GPT-4進(jìn)行了多個(gè)不同的bechmark測試，模擬考試中，采用了多選擇和自由回答的題型，采用通用的評審方式綜合得分排序。在統(tǒng)一律師考試中，GPT-4排到top10%的位置，而GPT3.5排在top90%的位置，差距明顯，在我們比較熟悉的leetcode中，在easy、medium和hard類型中，GPT-4的效果都要好于GPT3.5。整體而言，在學(xué)術(shù)和專業(yè)領(lǐng)域的測試中，大部分的測試都是GPT-4的結(jié)果好于GPT-3.5的結(jié)果。需要強(qiáng)調(diào)的是：在這類測試中，使用post-training的RLHF對測試結(jié)果的影響不大。

語言模型通用基準(zhǔn)對比

GPT-4在也在語言模型領(lǐng)域通用的基準(zhǔn)上和最先進(jìn)(SOTA)模型對比，這些SOTA的效果可能是基于特定數(shù)據(jù)協(xié)議訓(xùn)練的，實(shí)驗(yàn)表明即使這樣，在大多數(shù)基準(zhǔn)上，GPT-4都好于當(dāng)前最先進(jìn)(SOTA)模型的效果。
?

多語言能力對比

因?yàn)楹芏郙L模型的基準(zhǔn)都是英語了，為了測試其他語言上的能力，openAI將MMLU基準(zhǔn)中的57個(gè)主題的多項(xiàng)選擇題翻譯成其他語言，然后對比效果。在英語和其他語言上，GPT-4的效果也遠(yuǎn)遠(yuǎn)好于其他翻譯模型，即使在可使用的語言預(yù)料匱乏的拉脫維亞語、威爾士語和斯瓦希里語上。

多模型輸入能力

GPT-4在已有的GPT-3.5的基礎(chǔ)上增加了圖像和文本混合輸入能力，圖像可以照片、圖表或屏幕截圖。略顯不足的是目前只支持文本的輸出。百度的問心一言雖然再效果是比不上GPT-4甚至chat-GPT，但能力上是支持圖片輸出的。為了展示GPT-4對圖片的處理能力，報(bào)告了給了一個(gè)通過VGA給手機(jī)通電的圖片，讓GPT-4找出圖片中的funny之處，如下：

局限(Limitations)

正如前面所述，GPT-4在很多的測試基準(zhǔn)上都取得了很好的效果，但盡管如此，依然還有很多的缺陷，并不是完全可靠的。GPT-4會(huì)產(chǎn)生幻覺并導(dǎo)致推理的錯(cuò)誤，特別是在高風(fēng)險(xiǎn)的環(huán)境中，與特定需求相匹配的精確的協(xié)議（例如人工審查、附加上下文的基礎(chǔ)，或完全避免高風(fēng)險(xiǎn)的使用）的應(yīng)用中。與GPT-3.5相比，在較少模型的幻覺方面，GPT-4在內(nèi)部的、對抗性設(shè)計(jì)的真實(shí)性評估中高出19%。

?
此外，在公開的將符合事實(shí)的陳述與一組不正確的陳述中區(qū)分開來的基準(zhǔn)測試(如TruthfulQA)上也有很大的提升。但需要強(qiáng)調(diào)的是：只進(jìn)行預(yù)訓(xùn)練的GPT-4上略微好于GPT3.5，而經(jīng)過RLHF的post-training之后得到了很大哦的提升。
?
再者就是模型知識(shí)的局限性，因?yàn)槟Ｐ褪鞘褂?022年9月份以前的數(shù)據(jù)，所以對于再次之后發(fā)生的事情，模型也無能為力。比如問GPT-4硅谷銀行是否破產(chǎn)了，它的回答肯定是沒有。

風(fēng)險(xiǎn)與緩解措施(Risks & mitigations)

openAI在提升模型的安全性和政策對齊上進(jìn)行了大量的嘗試，包括使用領(lǐng)域?qū)＜疫M(jìn)行紅藍(lán)對抗測試、構(gòu)建模型輔助安全管道以及在前模型基礎(chǔ)上提升安全性評估方法。
GPT-4和一般的小語言模型一樣，都會(huì)生成有害建議、有缺陷的代碼和不準(zhǔn)確信息的問題，并且GPT-4這些額外能力也會(huì)導(dǎo)致一些新的風(fēng)險(xiǎn)，為了更好的力這些風(fēng)險(xiǎn)，openAI聘請了各個(gè)領(lǐng)域的專家進(jìn)行對抗性測試，包括政策對齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)和國際安全等。根據(jù)專家收集到的風(fēng)險(xiǎn)問題數(shù)據(jù)，也餓可以增強(qiáng)模型訓(xùn)練改善這種情況，比如拒絕響應(yīng)合成危險(xiǎn)化學(xué)品的請求。
?
對于之前的GPT模型，GPT-4模型是在pre-training之后使用RLHF對其進(jìn)行了增強(qiáng)，實(shí)驗(yàn)發(fā)現(xiàn)，通過RLHF增強(qiáng)后，反而讓模型在不安全的輸入上更加的脆弱，有時(shí)候也會(huì)返回一些不符合預(yù)期的響應(yīng)。為了應(yīng)對該問題，openAI額外增加了一批安全相關(guān)的prompts用于RLHF訓(xùn)練，以及根據(jù)規(guī)則制定強(qiáng)化學(xué)習(xí)的激勵(lì)模型(RBRM)。
?
針對上面問題采取的緩解措施之后，安全性指標(biāo)上拒絕不允許的請求相比于GPT3.5下降了82%，在敏感的請求中按照我們的策略響應(yīng)的提升了29%，另外有害內(nèi)容的產(chǎn)生也從GPT-3.5的6.48%下降到0.73%。
?

總的來說，我們的模型級(jí)干預(yù)增加了引發(fā)不良行為的難度，但仍然有可能產(chǎn)生。例如，仍然存在“越獄”來生成違反我們使用指南的內(nèi)容。只要存在這些限制，就必須使用部署時(shí)安全技術(shù)來補(bǔ)充它們，例如監(jiān)控濫用以及用于快速迭代模型改進(jìn)的管道。
GPT-4 和后續(xù)模型有可能以有益和有害的方式對社會(huì)產(chǎn)生重大影響。我們正在與外部研究人員合作，以改進(jìn)我們理解和評估潛在影響的方式，以及對未來系統(tǒng)中可能出現(xiàn)的危險(xiǎn)功能進(jìn)行評估。我們將很快發(fā)布關(guān)于社會(huì)可以采取的步驟來為人工智能的影響做準(zhǔn)備的建議，以及預(yù)測人工智能可能的經(jīng)濟(jì)影響的初步想法。

參考文獻(xiàn)
GPT-4 Technical Report
gpt-4-system-card
《GPT-4報(bào)告的整體情況》

總結(jié)

以上是生活随笔為你收集整理的GPT-4报告解读的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

报告
GPT