震惊科学界,微软 154 页研究刷屏:GPT-4 能力接近人类,「天网」初现?
感謝網友 Sancu 的線索投遞!
在通往 AGI 的路上我們還有多遠?微軟豪華作者團隊發布的 154 頁論文指出,GPT-4 已經初具通用人工智能的雛形。
GPT-4 會演變為通用人工智能嗎?
Meta 首席人工智能科學家、圖靈獎得主 Yann LeCun 對此表示質疑。
在他看來,大模型對于數據和算力的需求實在太大,學習效率卻不高,因此學習「世界模型」才能通往 AGI 之路。
不過,微軟最近發表的 154 頁論文,似乎就很打臉。
在這篇名為「Sparks of Artificial General Intelligence: Early experiments with GPT-4」的論文中,微軟認為,雖然還不完整,但 GPT-4 已經可以被視為一個通用人工智能的早期版本。
鑒于 GPT-4 能力的廣度和深度,我們相信它應該被合理視作一個通用人工智能(AGI)系統的早期(但仍不完整)版本。
本文的主要目標是對 GPT-4 的能力和局限性進行探索,我們相信 GPT-4 的智能標志著計算機科學及其他領域的真正范式轉變。
AGI 的智能體現在能夠像人類一樣思考和推理,并且還能夠涵蓋廣泛的認知技能和能力。
論文中,指出 AGI 具有推理、規劃、解決問題、抽象思維、理解復雜思想、快速學習和經驗學習能力。
從參數規模上來看,Semafor 報道稱 GPT-4 有 1 萬億個參數,是 GPT-3(1750 億個參數)的 6 倍大。
網友用 GPT 參數規模大腦神經元做了類比:
GPT-3 的規模與刺猬大腦類似(1750 億個參數)。如果 GPT-4 擁有 1 萬億個參數,我們就接近松鼠大腦的規模了。以這個速度發展下去,也許只需要幾年時間,我們就能達到并超越人類大腦的規模(170 萬億參數)。
由此看來,GPT-4 距離成為「天網」也不遠了。
而這篇論文,還被扒出不少趣事。
論文發布不久后,一位網友在推特上爆出從他們的 latex 源代碼中發現了隱藏信息。
在未刪減版的論文中,GPT-4 實際上也是該論文的隱藏第三作者,內部名稱 DV-3,后被刪除。
有趣的是,就連微軟研究人員對 GPT-4 的技術細節并不清楚。另外,這篇論文還刪除了 GPT-4 在沒有任何提示的情況下產生的有毒內容。
GPT-4 初具 AGI 雛形
這篇論文的研究對象,是 GPT-4 的早期版本。它還處于早期開發階段時,微軟的研究者就對它進行了各種實驗和測評。
在研究者看來,這個早期版本的 GPT-4,就已經是新一代 LLM 的代表,并且相較于之前的人工智能模型,展現出了更多的通用智能。
通過測試,微軟的研究者證實:GPT-4 不僅精通語言,還能在數學、編程、視覺、醫學、法律、心理學等多樣化和高難度的任務中表現出色,且無需特別提示。
令人驚奇的是,在所有這些任務中,GPT-4 的表現已經接近人類水平,并且時常超過之前的模型,比如 ChatGPT。
因此,研究者相信,鑒于 GPT-4 在廣度和深度上的能力,它可以被視為通用人工智能(AGI)的早期版本。
那么,它朝著更深入、更全面的 AGI 前進的路上,還有哪些挑戰呢?研究者認為,或許需要尋求一種超越「預測下一個詞」的新范式。
如下關于 GPT-4 能力的測評,便是微軟研究人員給出關于 GPT-4 是 AGI 早期版本的論據。
多模態和跨學科能力
自 GPT-4 發布后,大家對其多模態能力的印象還停留在 Greg Brockman 當時演示的視頻上。
這篇論文第二節中,微軟最先介紹了它的多模態能力。
GPT-4 不僅在文學、醫學、法律、數學、物理科學和程序設計等不同領域表現出高度熟練程度,而且它還能夠將多個領域的技能和概念統一起來,并能理解其復雜概念。
綜合能力
研究人員分別用以下 4 個示例來展示 GPT-4 在綜合能力方面的表現。
第一個示例中,為了測試 GPT-4 將藝術和編程結合的能力,研究人員要求 GPT-4 生成 javascript 代碼,以生成畫家 Kandinsky 風格的隨機圖像。
如下為 GPT-4 實現代碼過程:
在文學和數學結合上,GPT-4 能夠以莎士比亞的文學風格證明質數是無窮多的。
此外,研究還測試了 GPT-4 將歷史知識和物理知識結合起來的能力,通過要求其撰寫一封支持 Electron 競選美國總統的信,信是由圣雄甘地寫給他的妻子的。
通過提示 GPT-4 為一個程序生成 python 代碼,該程序將患者的年齡、性別、體重、身高和血液檢測結果向量作為輸入,并指出患者是否處于糖尿病風險增加的狀態。
通過測試,以上例子表明 GPT-4 不僅能夠學習不同領域和風格的一些通用原則和模式,還能以創造性的方式將其結合。
視覺
當提示 GPT-4 使用可伸縮矢量圖形(SVG)生成物體圖像,如貓、卡車或字母時,該模型生成的代碼通常會編譯成相當詳細,且可識別的圖像,如下圖:
然而,許多人可能會認為 GPT-4 只是從訓練數據中復制了代碼,其中包含類似的圖像。
其實 GPT-4 不僅是從訓練數據中的類似示例中復制代碼,而且能夠處理真正的視覺任務,盡管只接受了文本訓練。
如下,提示模型通過結合字母 Y、O 和 H 的形狀來繪制一個人。
在生成過程中,研究人員使用 draw-line 和 draw-circle 命令創建了 O、H 和 Y 的字母,然后 GPT-4 設法將它們放置在一個看起是合理的人形圖像中。
盡管 GPT-4 并沒有經過關于字母形狀的認識的訓練,仍舊可以推斷出,字母 Y 可能看起來像一個手臂朝上的軀干。
在第二次演示中,提示 GPT-4 糾正軀干和手臂的比例,并將頭部放在中心位置。最后要求模型添加襯衫和褲子。
如此看來,GPT-4 從相關訓練數據中、模糊地學習到字母與一些特定形狀有關,結果還是不錯的。
為了進一步測試 GPT-4 生成和操作圖像的能力,我們測試了它遵循詳細指令創建和編輯圖形的程度。這項任務不僅需要生成能力,還需要解釋性、組合性和空間性能力。
第一個指令是讓 GPT-4 生成 2D 圖像,prompt 為:
「A frog hops into a bank and asks the teller, ‘Do you have any free lily pads?’ The teller responds, ‘No, but we do o er low interest loans for pond upgrades」
通過多次嘗試,GPT-4 每一次都生成符合描述的圖像。然后,要求 GPT-4 添加更多細節來提高圖形質量,GPT-4 添加了銀行、窗戶、汽車等符合現實邏輯的物體。
我們的第二個示例是嘗試使用 Javascript 生成一個 3D 模型,同樣通過指令 GPT-4 完成了許多任務。
另外,GPT-4 在草圖生成方面,能夠結合運用 Stable Difusion 的能力。
下圖為 3D 城市建模截圖,輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、屏幕底部有 4 個按鈕,顏色分別為綠色、藍色、棕色和紅色。生成結果如下:
音樂
研究人員要求 GPT-4 用 ABC 記譜法編碼生成和修改曲調,如下:
通過探究 GPT-4 在訓練中獲得了多少技能,研究人員發現 GPT-4 能夠在 ABC 記譜法中產生有效的旋律,并在一定程度上解釋和操作其中的結構。
然而,研究人員無法讓 GPT-4 產生任何非平凡的和聲形式,比如無法譜出像《歡樂頌》、《致愛麗絲》等著名的旋律。
編程能力
此外,研究人員還展示了 GPT-4 能夠以非常高的水平進行編碼能力,無論是根據指令編寫代碼,還是理解現有代碼方面都展現出超強能力。
在根據指令編寫代碼方面,研究人員演示了一個讓 GPT-4 寫 python 函數的例子。
代碼生成后,研究人員使用軟件工程面試平臺 LeetCode 在線判斷代碼是否正確。
對于大家都在用討論 LeetCode 正確率僅有 20%,論文作者 Yi Zhang 對此進行了反駁。
另外,還讓 GPT-4 將上表中 LeetCode 的準確率數據可視化為圖表,結果如圖所示。
GPT-4 不僅可以完成普通的編程工作,還能勝任復雜的 3D 游戲開發。
研究者讓 GPT-4 用 JavaScript 在 HTML 中編寫 3D 游戲,GPT-4 在零樣本的情況下生成了一個滿足所有要求的游戲。
在深度學習編程中,GPT-4 不僅需要數學和統計學知識,還需要對 PyTorch、TensorFlow、Keras 等框架和庫熟悉。
研究人員要求 GPT-4 和 ChatGPT 編寫一個自定義優化器模塊,并為其提供了自然語言描述,其中包括一系列重要的操作,例如應用 SVD 等等。
除了根據指令編寫代碼,GPT-4 在理解代碼上展現出超強的能力。
研究者嘗試讓 GPT-4 和 ChatGPT 讀懂一段 C / C++ 程序,并預測程序的輸出結果,二者的表現如下:
標黃的地方是 GPT-4 富有洞察力的觀點,而紅色標記代表 ChatGPT 出錯的地方。
通過編碼能力測試,研究者發現 GPT-4 可以處理各種編碼任務,從編碼挑戰到實際應用,從低級匯編到高級框架,從簡單數據結構到復雜的程序。
此外,GPT-4 還可以推理代碼執行、模擬指令的效果,并用自然語言解釋結果。GPT-4 甚至可以執行偽代碼。
數學能力
在數學能力上,相比于之前的大語言模型,GPT-4 已經取得了質的飛躍。即便是面對專門精調的 Minerva,在性能上也有明顯提升。
不過,距離專家水平還相去甚遠。
舉個例子:每年兔子的種群數量會增加 a 倍,而在年底的最后一天,有 b 只兔子被人類領養。假設第一年的第一天有 x 只兔子,已知 3 年后兔子的數量將變為 27x-26。那么,a 和 b 的值分別是多少?
為了解決這個問題,我們首先需要得出每年兔子數量變化的正確表達式,通過這種遞歸關系推導出一個方程組,進而得到答案。
這里,GPT-4 成功地得出了解決方案,并提出了一個合理的論點。相比之下,在幾次獨立嘗試中,ChatGPT 始終無法給出正確的推理和答案。
高等數學
接下來,我們直接上個難的。比如,下面這道出自 2022 年國際數學奧林匹克競賽(IMO)的問題(簡化版)。
該題與本科微積分考試的不同之處在于,它不符合結構化的模板。解決這個問題需要更有創造性的方法,因為沒有明確的策略來開始證明。
例如,將論證分為兩種情況(g (x) > x^2 和 g (x) < x^2)的決定并不明顯,選擇 y * 的原因也是如此(在論證過程中,它的原因才變得明確)。此外,解決方案需要本科級別的微積分知識。
盡管如此,GPT-4 還是給出了一個正確的證明。
第二個關于算法和圖論的討論,則可以與研究生水平的面試相媲美。
對此,GPT-4 能夠對一個與約束滿足問題相關的抽象圖構造進行推理,并從中得出關于 SAT 問題的正確結論(據我們所知,這種構造在數學文獻中并未出現)。
這次對話反映出 GPT-4 對所討論的本科級數學概念的深刻理解,以及相當程度的創造力。
盡管 GPT-4 在一次回答中把 2^n / 2 寫成了 2^n-1,但著似乎更像是我們俗稱的「筆誤」,因為它后來提供了公式的正確推廣。
此外,研究者在兩個通常用作基準的數學數據集上比較 GPT-4、ChatGPT 和 Minerva 的性能:GSM8K 和 MATH 。
結果發現,GPT4 在每個數據集上的測試都超過了 Minerva,并且在兩個測試集的準率都超過 80% 。
再來細看 GPT4 犯錯的原因,68% 都是計算錯誤,而不是解法錯誤。
與世界互動
智能另一個關鍵的體現就是交互性。
交互性對于智能很重要,因為它使智能體能夠獲取和應用知識,解決問題,適應不斷變化的情況,并實現超出其自身能力的目標。
由此,研究者從工具使用和具體的交互兩個維度研究了 GPT-4 的交互性。GPT-4 在回答如下問題時能夠搜索引擎或 API 等外部工具。
與人類互動
論文中,研究者發現了 GPT-4 可以建立人類的心智模型。
研究設計了一系列測試來評估 GPT-4、ChatGPT 和 text-davinci-003 的心智理論的能力。比如理解信仰,GPT-4 成功通過了心理學中的 Sally-Anne 錯誤信念測試。
還有測試 GPT-4 在復雜情境下推斷他人情緒狀態能力的表現:
-湯姆為什么做出悲傷的表情?-亞當認為是什么導致了湯姆的悲傷表情?
通過多輪測試,研究人員發現在需要推理他人心理狀態,并提出符合現實社交場景中的方案,GPT-4 表現優于 ChatGPT 和 text-davinci-003。
局限性
GPT-4 所采用的「預測下一個詞」模式,存在著明顯的局限性:模型缺乏規劃、工作記憶、回溯能力和推理能力。
由于模型依賴于生成下一個詞的局部貪婪過程,而沒有對任務或輸出的全局產生深入的理解。因此,GPT-4 擅長生成流暢且連貫的文本,但不擅長解決無法以順序方式處理的復雜或創造性問題。
比如,用范圍在 0 到 9 之間的四個隨機數進行乘法和加法運算。在這個連小學生都能解決的問題上,GPT-4 的準確率僅為 58%。
當數字在 10 到 19 之間,以及在 20 到 39 之間時,準確率分別降至 16% 和 12%。當數字在 99 到 199 的區間時,準確率直接降至 0。
然而,如果讓 GPT-4「花時間」回答問題,準確率很容易提高。比如要求模型使用以下提示寫出中間步驟:
116 * 114 + 178 * 157 = ?
讓我們一步一步思考,寫下所有中間步驟,然后再產生最終解。
此時,當數字在 1-40 的區間時,準確率高達 100%,在 1-200 的區間時也達到了 90%。
馬庫斯發文反駁
有意思的是,就在微軟這篇論文發表后不久,馬庫斯立馬寫出一篇博客,稱微軟的觀點「非?;闹嚒?。
并引用了圣經中的一句話「驕傲在敗壞以先,狂心在跌倒之前。(箴 16:18)」
GPT-4 怎么就算得上早期 AGI 了?這么說的話,計算器也算,Eliza 和 Siri 更算。這個定義就很模糊,很容易鉆空子。
在馬庫斯看來,GPT-4 和 AGI 沒什么關系,而且 GPT-4 跟此前一樣,缺點依舊沒有解決,幻覺還存在,回答的不可靠性也沒有解決,甚至作者自己都承認了復雜任務的計劃能力還是不行。
他的擔憂的是 OpenAI 和微軟的這 2 篇論文,寫的模型完全沒有披露,訓練集和架構什么都沒有,光靠一紙新聞稿,就想宣傳自己的科學性。
所以說論文里號稱的「某種形式的 AGI」是不存在的,科學界根本無法對其進行驗證,因為也無法獲得訓練數據,而且似乎訓練數據已經受到了污染。
更糟糕的是,OpenAI 已經自己開始將用戶實驗納入訓練語料庫了。這樣混淆視聽后,科學界就沒法判斷 GPT-4 的一個關鍵能力了:模型是否有能力可以對新測試案例進行歸納。
如果 OpenAI 不在這里給自己戴上科學的高帽子,馬庫斯可能也不會這么批判它。
他承認 GPT-4 是很強大,但是風險也是眾所周知。如果 OpenAI 缺乏透明度,并且拒絕公開模型,不如直接關停。
強大作者陣容
微軟這篇長達 154 頁的論文背后有著強大的作者陣容。
其中就包括:微軟雷德蒙德研究院首席研究員、2015 年斯隆獎得主 Sébastien Bubeck、2023 新視野數學獎得主 Ronen Eldan、2020 斯隆研究獎得主 Yin Tat Lee、2023 新晉斯隆研究獎得主李遠志。
值得一提的是,微軟團隊最初定的論文題目并不是「通用人工智能的火花:GPT-4 的早期實驗」。
未刪減論文中泄漏的 latex 代碼顯示,最初題目是「與 AGI 的第一次接觸」。
參考資料:
-
https://arxiv.org/abs/2303.12712
-
https://twitter.com/DV2559106965076/status/1638769434763608064
-
https://the-decoder.com/gpt-4-has-a-trillion-parameters/
-
https://garymarcus.substack.com/p/the-sparks-of-agi-or-the-end-of-science
本文來自微信公眾號:新智元 (ID:AI_era)
總結
以上是生活随笔為你收集整理的震惊科学界,微软 154 页研究刷屏:GPT-4 能力接近人类,「天网」初现?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iptables(上)
- 下一篇: 循环贷账户是什么