GPT-4报告解读
寫在前面
前面我們介紹了《GPT-4報(bào)告的整體情況》,那接下來展開介紹GPT-4報(bào)告中講的內(nèi)容。
前沿
在模型的結(jié)構(gòu)上,是基于Transformer結(jié)構(gòu)的大模型。接受多模態(tài)輸入,即圖像和文本輸入(但只能輸出文本)。使用公開的的數(shù)據(jù)訓(xùn)練,并使用人類反饋的增強(qiáng)學(xué)習(xí)(RLHF)微調(diào)模型,進(jìn)一步提升模型的整體效果,使其更符合人類習(xí)慣的輸出。報(bào)告中明確指出,不會(huì)給出模型的架構(gòu)(包括模型大小)、硬件、訓(xùn)練計(jì)算、數(shù)據(jù)集的構(gòu)成及訓(xùn)練方法等詳情。也就是說,我們無法想讀論文一樣了解GPT-4的實(shí)現(xiàn)細(xì)節(jié)。整個(gè)報(bào)告主要圍繞GPT-4的能力,局限和安全等方面展開。
GPT-4的報(bào)告的中英文摘要如下:
We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer- based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.
我們報(bào)告了 GPT-4 的開發(fā),這是一種大規(guī)模的多模式模型,可以接受圖像和文本輸入并產(chǎn)生文本輸出。雖然在許多現(xiàn)實(shí)場景中的能力不如人類,但GPT-4 在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測試中表現(xiàn)出人類水平的表現(xiàn),包括通過模擬律師考試,得分在應(yīng)試者的前 10% 左右。 GPT-4 是一種基于Transformer 的模型,經(jīng)過預(yù)訓(xùn)練可以預(yù)測文檔中的下一個(gè)標(biāo)記。訓(xùn)練后的對齊過程會(huì)提高真實(shí)性和遵守所需行為的措施性能。該項(xiàng)目的核心組成部分包括可在廣泛范圍內(nèi)預(yù)測規(guī)模表現(xiàn)的基礎(chǔ)設(shè)施和優(yōu)化方法。這使我們能夠基于不超過GPT-4 計(jì)算量的萬分之一的訓(xùn)練模型準(zhǔn)確預(yù)測 GPT-4某些方面的性能。
從摘要中可以看出GPT-4的效果要比之前的GPT模型好很多,以及模型應(yīng)用落地必須要考慮的方面,接下來對報(bào)告的正文展開介紹。
GPT-4的能力(Capabilities )
可預(yù)測模型規(guī)模表現(xiàn)
GPT-4一個(gè)大的核心點(diǎn)事構(gòu)建一個(gè)可預(yù)測擴(kuò)展深度學(xué)習(xí)棧。主要的原因是像GPT-4這種非常大的訓(xùn)練,針對特定模型的微調(diào)是不可行的(時(shí)間+人力+投入成本不劃算)。為此,GPT開發(fā)了一套多尺度上具有可預(yù)測行為的基礎(chǔ)設(shè)置和優(yōu)化方法。這些改進(jìn)可以讓我們比較可靠的使用GPT-4萬分之一的小模型規(guī)模,預(yù)測GPT-4這種大模型在某些方面的性能(比如loss的走勢和在某些數(shù)據(jù)集上的通過率等指標(biāo))。用小參數(shù)量的模型,擬合一條X軸為模型規(guī)模,Y軸為某個(gè)指標(biāo)的曲線預(yù)測大規(guī)模參數(shù)下模型的表現(xiàn),可以大大減少試錯(cuò)成本,提升研發(fā)效率,前景非常的不錯(cuò)。
為了預(yù)測GPT-4的loss,報(bào)告中使用最大計(jì)算量不超過待預(yù)測模型GPT-4規(guī)模的萬分之一的多個(gè)小模型,擬合一條曲線(scaling law):
a,b,c是待確定的參數(shù),通過幾個(gè)小規(guī)模的loss即可計(jì)算出a,b,c參數(shù),然后根據(jù)該函數(shù)計(jì)算GPT-4的loss。下圖就是擬合模型loss的曲線圖,從圖中可以看出,很精準(zhǔn)的預(yù)測了GPT-4的loss。
同樣的,使用類似的方法可以預(yù)測其他可解釋性的指標(biāo)與模型規(guī)模的關(guān)系,比如在HumanEval評測上,找到了公式:
?
從實(shí)驗(yàn)上看,對于GPT-4的效果預(yù)測也是很精準(zhǔn)的,其曲線圖如下:
當(dāng)然,也存在某些表現(xiàn)難以預(yù)測, 比如在“ Inverse Scaling Prize中提到的幾個(gè)任務(wù),一般的模型如GPT-3.5都隨著模型規(guī)模效果變差,而GPT-4卻是相反的。
?
這種預(yù)測規(guī)模表現(xiàn)的能力在安全性上也是很重要的,報(bào)告提出希望致力于這方面的研究,也希望能夠成為一個(gè)大眾接受并樂于投入研究的領(lǐng)域。
模擬測試對比
對于GPT-4進(jìn)行了多個(gè)不同的bechmark測試,模擬考試中,采用了多選擇和自由回答的題型,采用通用的評審方式綜合得分排序。在統(tǒng)一律師考試中,GPT-4排到top10%的位置,而GPT3.5排在top90%的位置,差距明顯,在我們比較熟悉的leetcode中,在easy、medium和hard類型中,GPT-4的效果都要好于GPT3.5。整體而言,在學(xué)術(shù)和專業(yè)領(lǐng)域的測試中,大部分的測試都是GPT-4的結(jié)果好于GPT-3.5的結(jié)果。需要強(qiáng)調(diào)的是:在這類測試中,使用post-training的RLHF對測試結(jié)果的影響不大。
語言模型通用基準(zhǔn)對比
GPT-4在也在語言模型領(lǐng)域通用的基準(zhǔn)上和最先進(jìn)(SOTA)模型對比,這些SOTA的效果可能是基于特定數(shù)據(jù)協(xié)議訓(xùn)練的,實(shí)驗(yàn)表明即使這樣,在大多數(shù)基準(zhǔn)上,GPT-4都好于當(dāng)前最先進(jìn)(SOTA)模型的效果。
?
多語言能力對比
因?yàn)楹芏郙L模型的基準(zhǔn)都是英語了,為了測試其他語言上的能力,openAI將MMLU基準(zhǔn)中的57個(gè)主題的多項(xiàng)選擇題翻譯成其他語言,然后對比效果。在英語和其他語言上,GPT-4的效果也遠(yuǎn)遠(yuǎn)好于其他翻譯模型,即使在可使用的語言預(yù)料匱乏的拉脫維亞語、威爾士語和斯瓦希里語上。?
多模型輸入能力
GPT-4在已有的GPT-3.5的基礎(chǔ)上增加了圖像和文本混合輸入能力,圖像可以照片、圖表或屏幕截圖。略顯不足的是目前只支持文本的輸出。百度的問心一言雖然再效果是比不上GPT-4甚至chat-GPT,但能力上是支持圖片輸出的。為了展示GPT-4對圖片的處理能力,報(bào)告了給了一個(gè)通過VGA給手機(jī)通電的圖片,讓GPT-4找出圖片中的funny之處,如下:局限(Limitations)
正如前面所述,GPT-4在很多的測試基準(zhǔn)上都取得了很好的效果,但盡管如此,依然還有很多的缺陷,并不是完全可靠的。GPT-4會(huì)產(chǎn)生幻覺并導(dǎo)致推理的錯(cuò)誤,特別是在高風(fēng)險(xiǎn)的環(huán)境中,與特定需求相匹配的精確的協(xié)議(例如人工審查、附加上下文的基礎(chǔ),或完全避免高風(fēng)險(xiǎn)的使用)的應(yīng)用中。與GPT-3.5相比,在較少模型的幻覺方面,GPT-4在內(nèi)部的、對抗性設(shè)計(jì)的真實(shí)性評估中高出19%。?
此外,在公開的將符合事實(shí)的陳述與一組不正確的陳述中區(qū)分開來的基準(zhǔn)測試(如TruthfulQA)上也有很大的提升。但需要強(qiáng)調(diào)的是:只進(jìn)行預(yù)訓(xùn)練的GPT-4上略微好于GPT3.5,而經(jīng)過RLHF的post-training之后得到了很大哦的提升。
?
再者就是模型知識(shí)的局限性,因?yàn)槟P褪鞘褂?022年9月份以前的數(shù)據(jù),所以對于再次之后發(fā)生的事情,模型也無能為力。比如問GPT-4硅谷銀行是否破產(chǎn)了,它的回答肯定是沒有。
風(fēng)險(xiǎn)與緩解措施(Risks & mitigations)
openAI在提升模型的安全性和政策對齊上進(jìn)行了大量的嘗試,包括使用領(lǐng)域?qū)<疫M(jìn)行紅藍(lán)對抗測試、構(gòu)建模型輔助安全管道以及在前模型基礎(chǔ)上提升安全性評估方法。
GPT-4和一般的小語言模型一樣,都會(huì)生成有害建議、有缺陷的代碼和不準(zhǔn)確信息的問題,并且GPT-4這些額外能力也會(huì)導(dǎo)致一些新的風(fēng)險(xiǎn),為了更好的力這些風(fēng)險(xiǎn),openAI聘請了各個(gè)領(lǐng)域的專家進(jìn)行對抗性測試,包括政策對齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)和國際安全等。根據(jù)專家收集到的風(fēng)險(xiǎn)問題數(shù)據(jù),也餓可以增強(qiáng)模型訓(xùn)練改善這種情況,比如拒絕響應(yīng)合成危險(xiǎn)化學(xué)品的請求。
?
對于之前的GPT模型,GPT-4模型是在pre-training之后使用RLHF對其進(jìn)行了增強(qiáng),實(shí)驗(yàn)發(fā)現(xiàn),通過RLHF增強(qiáng)后,反而讓模型在不安全的輸入上更加的脆弱,有時(shí)候也會(huì)返回一些不符合預(yù)期的響應(yīng)。為了應(yīng)對該問題,openAI額外增加了一批安全相關(guān)的prompts用于RLHF訓(xùn)練,以及根據(jù)規(guī)則制定強(qiáng)化學(xué)習(xí)的激勵(lì)模型(RBRM)。
?
針對上面問題采取的緩解措施之后,安全性指標(biāo)上拒絕不允許的請求相比于GPT3.5下降了82%,在敏感的請求中按照我們的策略響應(yīng)的提升了29%,另外有害內(nèi)容的產(chǎn)生也從GPT-3.5的6.48%下降到0.73%。
?
總的來說,我們的模型級(jí)干預(yù)增加了引發(fā)不良行為的難度,但仍然有可能產(chǎn)生。例如,仍然存在“越獄”來生成違反我們使用指南的內(nèi)容。只要存在這些限制,就必須使用部署時(shí)安全技術(shù)來補(bǔ)充它們,例如監(jiān)控濫用以及用于快速迭代模型改進(jìn)的管道。
GPT-4 和后續(xù)模型有可能以有益和有害的方式對社會(huì)產(chǎn)生重大影響。我們正在與外部研究人員合作,以改進(jìn)我們理解和評估潛在影響的方式,以及對未來系統(tǒng)中可能出現(xiàn)的危險(xiǎn)功能進(jìn)行評估。我們將很快發(fā)布關(guān)于社會(huì)可以采取的步驟來為人工智能的影響做準(zhǔn)備的建議,以及預(yù)測人工智能可能的經(jīng)濟(jì)影響的初步想法。
參考文獻(xiàn)
GPT-4 Technical Report
gpt-4-system-card
《GPT-4報(bào)告的整體情況》
總結(jié)
- 上一篇: flume自定义拦截器开发步骤
- 下一篇: 我,钢铁侠,现急缺660亿美金