一文看懂多模态大型语言模型GPT-4
文章目錄
- 前言
- 什么是GPT-4
- GPT-4 VS GPT-3.5
- GPT-4與其他模型對比
- GPT-4視覺輸入
- GPT-4局限性
- 寫在最后
前言
近日,OpenAI發布了最新版的生成預訓練模型GPT-4。據官方介紹,最新一代的模型是一個大模型,性能比CPT-3.5強悍很多,不僅僅是接受圖像、文本、代碼等的輸入輸出,更多的是在很多專業領域表現出人類的水準水;與上一代不同的是它的核心技術是基于Transformer的自回歸語言模型,使用了大量的無標注數據進行預訓練,學習了自然語言和其他模態之間的通用表示和關系。那么,今天我們就要一探究竟。
什么是GPT-4
GPT-4是OpenAI公司3月推出的新一代人工智能預訓練AI模型,是一個多模態大型語言模型,使用了1.5萬億個參數,是GPT-3.5的10倍之多,當然它也是世界上最大的人工智能模型。
據官方所述GPT-4是OpenAI在擴大深度學習方面的最新里程碑,是一個大型多模態模型(接受圖像和文本輸入,發出文本輸出),雖然在許多現實世界場景中的能力不如人類,但在各種專業和學術基準上表現出人類水平的性能。例如,它通過了模擬律師考試,分數在前10%左右;相比之下,GPT-3.5的得分在10%左右。我們花了6個月的時間,利用我們對抗性測試計劃和ChatGPT的經驗教訓,反復調整GPT-4,在真實性、可操縱性和拒絕走出護欄方面取得了有史以來最好的結果。足以證明GPT-4簡直就是人工智能預訓練模型中的勞斯奈斯,簡直牛得不要不要的。
GPT-4 VS GPT-3.5
官方文檔說GPT-3.5和GPT-4之間的區別可能很小,但是當任務的復雜性達到足夠的閾值時,差異就會顯現出來——GPT-4比GPT-3.5更可靠、更具創造力,并且能夠處理更細微的指令。
官方為了比較這兩個模型之間的差異,在各種基準上進行了測試,包括最初為人類設計的模擬考試,以及最新的公開考試(在奧運會和AP免費回答問題的情況下),或者購買了2022年至2023年的練習考試。在測試過程中并沒有對這些考試進行專門的培訓,如下圖所示,在這些偏向人類獨立思考的考試中,GPT-4比GPT-3.5更加的可靠和更歐創造力。
GPT-4與其他模型對比
OpenAI為機器學習模型設計的傳統基準上評估了GPT-4,GPT-4大大優于現有的大型語言模型,以及大多數最先進的(SOTA)模型,這些模型可能包括特定于基準的手工制作或額外的訓練協議。
在測試的26種語言中的24種中,GPT-4的英語性能優于GPT-3.5和其他LLM(Chinchilla、PaLM),包括拉脫維亞語、威爾士語和斯瓦希里語等低資源語言。
GPT-4視覺輸入
GPT-4可以接受文本和圖像的提示,這與純文本設置平行,允許用戶指定任何視覺或語言任務。具體來說,它生成由穿插的文本和圖像組成的給定輸入的文本輸出(自然語言、代碼等)。在一系列領域,包括帶有文本和照片的文檔、圖表或屏幕截圖,GPT-4表現出與純文本輸入類似的功能。此外,它可以通過為純文本語言模型開發的測試時技術進行擴展,包括少量鏡頭和思維鏈提示。圖像輸入仍然是一個研究預覽,暫時并未對公眾公開。
GPT-4局限性
盡管GPT-4具有功能,但它與早期的GPT模型具有類似的局限性。最重要的是,它仍然不是完全可靠的(它會“幻覺”事實并犯推理錯誤)。在使用語言模型輸出時,特別是在高風險的上下文中,應該非常小心,因為確切的協議(如人工審查、以額外的上下文為基礎或完全避免高風險的使用)與特定用例的需求相匹配。
雖然GPT-4仍然存在問題,但與之前的模型相比,它顯著減少了幻覺。在官方的內部對抗性事實評估中,GPT-4的得分比最新的GPT-3.5高40%:
寫在最后
GPT-4應該算得上是至今為止最為強大的人工智能預訓練模型,無論是性能上、可靠性以及創造力都較GPT-3.5有較大提升。特別是最新的視覺輸入功能,模型可以根據圖片視覺分析并給出自己獨立的答案,這可以算得上人工智能方向的一個新里程碑。雖然很強悍,但GPT-4還是有早期模型類似的局限性。所以,GPT-4之后的路還很長呀!
路漫漫其修遠兮,吾將上下而求索
有興趣的小伙伴也可以加我:
訂閱號 ‘架構集結號’
知識星球 ‘Coding社區’
總結
以上是生活随笔為你收集整理的一文看懂多模态大型语言模型GPT-4的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [转载]信息安全从业参考
- 下一篇: 16秋南开计算机应用答案,南开16秋学期