GPT-4o 攻破 ARC-AGI 无法被挑战的神话!71% 准确率成新 SOTA
號稱不可能輕易被擊敗的 AGI 基準 ARC-AGI 被 GPT-4o 撼動,GPT-4o 以在公共測試集 50%、在訓(xùn)練集 71% 的準確率成為了新的 SOTA!
ARC-AGI 是唯一可以用來衡量通用人工智能進展的基準,創(chuàng)造者 Fran?ois Chollets 曾經(jīng)擲下豪言 ——
「它不可能輕易被擊敗!」
為了測試這一點,他于 2020 年在 Kaggle(Google LLC 旗下的數(shù)據(jù)科學(xué)競賽平臺)上主辦了首屆 ARC-AGI 競賽。
獲勝團隊 icecuber 在測試集上僅取得了 21% 的成功率,這個成績強有力地證明了 Fran?ois 的斷言是正確的。
此后幾年,來自世界各地的挑戰(zhàn)者不斷刷新這個紀錄,但進展緩慢。ARC-AGI 似乎成為了一座不可跨越的高山。
可是這周二,ARC-AGI 基準無法被挑戰(zhàn)的神話被 GPT-4o 撼動了!GPT-4o 以在公共測試集 50%、在訓(xùn)練集的保留子集 71% 的準確率成為了新的 SOTA!
ARC-AGI 上周被大肆宣傳為 LLM 無法解決的基準。這個說法激發(fā)了我親愛的同事 Ryan Greenblatt 的斗志,因此他上周試圖用 LLMs 來解決這個問題。Ryan 在一組示例中獲得了 71% 的準確率,而人類的準確率為 85%;這(GPT-4o)是 SOTA。
這個消息也迅速登上了 HN 熱搜榜。
值得一提的是,今年 Mike Knoop、Fran?ois 和 Lab42 聯(lián)手創(chuàng)建了 2024 年 ARC 獎,獎金池超過 110 萬美元。
為了完成這個挑戰(zhàn),Ryan 放棄了一個星期的項目,設(shè)計了很多花哨的技巧,爭取了高性能:
訓(xùn)練集:71% vs. 人類基線 85%
測試集:51% vs. 之前的 SOTA 34%(人類基線未知)
但遺憾的是,此提交不符合 ARC-AGI 獎項和主要排行榜的資格,因為它使用閉源模型和過多的運行時計算。
可能 Ryan 會提交到私人排行榜中吧。
什么是 ARC-AGI?
ARC-AGI 的數(shù)據(jù)集由視覺問題組成,輸入輸出示例是由彩色單元格組成的網(wǎng)格,任務(wù)是猜測從輸入到輸出的轉(zhuǎn)換規(guī)律,然后補全缺失的網(wǎng)格。
看起來很簡單對吧,就像是小學(xué)的奧數(shù)題,讓 GPT-4o 來解決也并不困難。不過,公共測試集中的任務(wù)要難得多,對于人類來說,也會有些棘手,但并非不可解決。
每一項 ARC-AGI 任務(wù)都是經(jīng)過人工驗證的,包括公共測試集,確保 ARC-AGI 的所有任務(wù)都可以由人類解決。
畢竟這是一個通用人工智能基準,如果連人類自己都難倒了,那拿去測試 LLM 也說不過去。
據(jù)報道,亞馬遜土耳其機器人 (Amazon Mechanical Turk,MTurk) 訓(xùn)練分布的人類基線是 85%,但沒有針對公開測試集的人類基線,不過我們已知的是,公開測試集更難,那么針對公開測試集的人類基線應(yīng)該會更低。
Ryan 給出了測試集中的一些代表性的問題,以及他基于 GPT-4o 的解決方案是否回答正確。
問題 1:
問題 2:
問題 3:
從 Ryan 給出的這 3 個例子中可以看出,GPT-4o 答對了三分之一。(跟小編的勝率一樣,前 2 個圖密密麻麻,沒看出個所以然來…)
怎么讓 GPT-4o 做到的
Ryan 的解決方案的主要思路非常簡單:讓 GPT-4o 生成約 8000 個嘗試實現(xiàn)轉(zhuǎn)換的 python 程序,選擇一個在所有示例(通常有 3 個示例)中都正確的程序,然后提交該函數(shù)應(yīng)用于額外測試輸入時產(chǎn)生的輸出。
Ryan 以圖像和各種 ASCII 表示形式向 GPT-4o 展示了該問題。
這種方法在本質(zhì)上與 AlphaCode 中應(yīng)用的方法類似,在 AlphaCode 中,一個模型會生成數(shù)百萬個試圖解決編程問題的完成項,然后對這些完成項進行匯總,以確定要提交的內(nèi)容。
從更高層次上來解釋,Ryan 使用的方法是:
向 GPT-4o 介紹 ARC-AGI 的問題,并為問題中的每個網(wǎng)格提供圖像表示法和各種文本表示法。
指導(dǎo) GPT-4o 推理背后的規(guī)律,進一步推理如何用代碼實現(xiàn)轉(zhuǎn)換,最后用代碼實現(xiàn)。
使用幾次提示以及幾個精心手寫的分步推理示例來實際讓 GPT-4o 有效地進行此推理。生成的提示通常長度約為 30k 個 token(包括圖像)。
從 GPT-4o 中抽取大量的完成樣本(每個問題約 5000 個)。
針對每個問題選取最有希望的 12 個補全,然后通過向 GPT-4o 展示該程序在示例中的實際輸出,并要求 GPT-4o 修改代碼使其正確,從而嘗試修復(fù)每個補全。
然后,根據(jù)對正確示例程序的多數(shù)投票結(jié)果,選出 3 個提交程序。
概括來說,Ryan 通過足夠長的、精雕細琢的少樣本提示,生成許多可能的 Python 程序,從大約 5k 個猜測中,使用示例選出最佳猜測,然后進行調(diào)試。
除了對訓(xùn)練集進行迭代外,Ryan 還對公共測試集的 100 個問題子集進行了少量迭代。
在這里介紹的所有結(jié)果都是在不重疊的公共測試集的另一個子集上計算得出的。
訓(xùn)練集和測試集不是獨立的,而且測試集的難度更大,因此使用測試集的子集進行迭代有助于快速更好地了解問題隨難度的變化。
不幸的是,這些測試集不是獨立同分布(Independent Identically Distribution,IID):這使得迭代變得更加困難和混亂。
關(guān)于方法的更多細節(jié),以及完整的解決方案,可以參閱項目的 GitHub:
采樣每增加一倍,精度提高 3%
如果有更多的采樣,性能會有所提高嗎?
答案是會的!
縮放 Python 采樣數(shù)量可以可靠地提高性能,每增加一倍,精度提高 3%。
而且這距離 AlphaCode 使用的數(shù)百萬個樣本還很遠!
GPT-4o 存在的非推理弱點
GPT-4o 看不清楚。GPT-4o 在網(wǎng)格上的視力很糟糕,當(dāng)被要求描述一個較大的網(wǎng)格中的內(nèi)容時,它通常無法正確「看清」輸入,并陳述有關(guān)某些位置的顏色或存在的形狀的錯誤事實。
GPT-4o 不太擅長編碼(特別是對于此類幾何操作問題),并且經(jīng)常犯一些簡單的錯誤,例如差一錯誤(Off-by-one error,OBOE)。
當(dāng)上下文中的 token 超過 32k 時,其性能會下降。
消除這些非推理弱點將顯著提高解決方案的性能,而這些問題似乎很可能通過規(guī)模化(scalling)來解決。
距離 ARC-AGI 大獎還有多遠?
如何才能達到 ARC-AGI 所設(shè)定的 85% 的大獎目標呢?
Ryan 做出了非常「數(shù)據(jù)化」的預(yù)測。
70% 的可能性:一個由 3 名頂尖 ML 工程師組成的團隊,通過微調(diào) GPT-4o(包括 SFT 和 RL)、1000 萬美元的計算量和 1 年的時間,可以使用 GPT-4o 超越 MTurk 85% 的人類基線(簡單訓(xùn)練集)。
35% 概率:在上述同等條件下,公共測試集上的概率也可達 85%。目前還不清楚哪些人在測試集上的表現(xiàn) >=85%,盡管這對于聰明的人來說可能并不難。
80% 的概率:下一代多模態(tài)大模型(例如 GPT-5)將能夠大幅提高 ARC-AGI 的性能。
LLM 有學(xué)習(xí)能力嗎
Ryan 引用了 Fran?ois Chollets 的一段話 ——
如果你是對的(LLMs 可以進行情境學(xué)習(xí)),那么,LLMs 在 ARC 謎題上會表現(xiàn)得很好,因為 ARC 謎題并不復(fù)雜。你不需要認真思考它,它們實際上對人類來說非常明顯。
即使是孩子也可以做到,但 LLMs 不能。即使 LLMs 的知識比你多 100,000 倍,仍然做不到。ARC 唯一的特殊之處在于它的設(shè)計初衷就是為了抵制記憶。這是 LLM 性能的巨大障礙。
如果仔細觀察 LLMs,很明顯他們并沒有真正即時合成新程序來解決他們面臨的任務(wù)。
Ryan 則認為,LLMs 在進行上下文學(xué)習(xí)時實際上做了一些相關(guān)的「學(xué)習(xí)」。
盡管整體性能非常弱,遠遠不如人類(否則他就不需要在他的解決方案中抽取數(shù)千個樣本),但這仍然是一種學(xué)習(xí)。
「我的觀點并不是說 GPT-4o 相對于人類來說是聰明的,但我確實認為它是具有『智能』的。」
參考資料:
https://x.com/bshlgrs/status/1802766374961553887
https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,所有文章均包含本聲明。
總結(jié)
以上是生活随笔為你收集整理的GPT-4o 攻破 ARC-AGI 无法被挑战的神话!71% 准确率成新 SOTA的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《艾尔登法环:黄金树幽影》明日正式发售:
- 下一篇: 微软建议用户升级至 Win11 24H2