最新基准测试显示 GPT-4V 错误率竟高达 90%:红绿灯认错、勾股定理也不会
【新智元導讀】馬里蘭大學發(fā)布首個專為 VLM 設計的基準測試 HallusionBench,全面測試 GPT-4V 視覺錯誤和語言幻覺。
GPT-4 被吹的神乎其神,作為具備視覺能力的 GPT-4 版本 ——GPT-4V,也被大眾寄于了厚望。
但如果告訴你,初中生都知道的勾股定理,只適用于直角三角形。
然而 GPT-4V 卻自信將其用于鈍角三角形中計算斜邊長度。
還有更離譜的,GPT-4V 直接犯了致命的安全錯誤,竟然認為紅燈可以行駛。
這到底是怎么回事呢?
馬里蘭大學的研究團隊在探索過程中發(fā)現(xiàn)了這些問題,并在此基礎上提出了兩種主要的錯誤類型:語言幻覺和視覺錯覺,以此來闡釋這些錯誤的原因。
論文鏈接:https://arxiv.org/ abs / 2310.14566
項目主頁:https://github.com/ tianyi-lab / HallusionBench
研究人員依據(jù)上述分析,創(chuàng)建了一個名為 HallusionBench 的圖像-語境推理基準測試,旨在深入探討圖像與語境推理的復雜性。
基于他們的對于視覺能力的測試,GPT4V 在回答視覺問題組的錯誤率高達近 90%。
研究者們還對新發(fā)布的 GPT-4V (ision) 和 LLaVA-1.5 進行了詳細的研究,深入分析了它們在視覺理解方面的能力。
HallusionBench 是第一個專為 VLM 設計的基準測試,主要關(guān)注視覺錯覺和知識幻覺。這個測試包括約 200 組視覺問答,其中近一半是由人工專家創(chuàng)作的。
目前數(shù)據(jù)已經(jīng)開源,并且還在更新中。
涉及的圖片類型多樣,包括原始的錯覺圖片、圖表、地圖、海報、視頻及手動制作或修改的圖片,涵蓋數(shù)學、計數(shù)、文化、動漫、體育和地理等多個領(lǐng)域。
論文中,作者初步闡述了 HallusionBench 中的兩種視覺問題分類:視覺依賴型(Visual Dependent)和視覺補充型(Visual Supplement),并討論了實驗對照組的設計方法。
隨后,他們分析了可能導致答案錯誤的兩大主要原因:視覺錯覺(Visual Illusion)和語言幻覺(Language Hallucination)。
在文末,作者通過不同的子類別詳細展示了各主要類別中的失敗案例,并進行了深入的分析。
關(guān)鍵點:
1. 「語言幻覺」:在 GPT-4V 和 LLaVA-1.5 中會誤導 90% 的樣本推理。視覺與語言之間的微妙平衡至關(guān)重要!
2. 「視覺錯覺」:LVLMs 中的視覺模塊容易受到復雜視覺上下文的影響,語言模型的錯誤被夸大。
3. 簡單的圖像修改就能欺騙 GPT-4V 和 LLaVA-1.5,暴露了對更強大的圖像分析能力的需求。
4. GPT-4V 在推理多個圖像之間的時間關(guān)系方面存在困難。
5. LLaVA-1.5 有時會在常識查詢上犯錯,需要改進其語言模型先驗。
視覺問題類型
視覺依賴型問題 (Visual Dependent):
這類問題的答案完全依賴于視覺內(nèi)容,缺乏圖像信息時無法確切回答。
這些問題通常關(guān)聯(lián)到圖像本身或其顯示的內(nèi)容。例如,在沒有圖像的情況下,無法準確回答諸如「圖中右側(cè)的橙色圓圈是否與左側(cè)的同樣大小?」之類的問題。
視覺補充型問題 (Visual Supplement):
這些問題即使在沒有視覺內(nèi)容的情況下也能得到回答。在這種類型的問題中,視覺元素僅提供附加信息。
比如,即便沒有圖片輔助,GPT-4V 仍能回答「新墨西哥州是否比德克薩斯州大?」等問題。
測試的核心在于判斷 GPT-4V 和 LLaVA-1.5 能否利用圖像內(nèi)容來作答,而不是僅憑它們的參數(shù)化記憶。
錯誤分類
作者對錯誤回答進行了分析,并將其原因分為兩大類:
視覺錯誤 (Language Hallucination):
這類錯誤產(chǎn)生于對輸入圖像的錯誤視覺識別和解釋。模型未能從圖像中提取準確信息或?qū)ζ溥M行正確推斷。
語言幻覺 (Visual Illusion):
模型基于其參數(shù)化知識庫,對問題輸入和圖像背景作出不恰當?shù)南热霝橹鞯募僭O。模型應當針對問題的具體環(huán)境作出反應,而不是忽略問題本身或?qū)D像作出錯誤解讀。
范例
從圖 1 所展示的經(jīng)典視覺錯覺案例中可見,GPT-4V 在識別各種錯覺圖像及其名稱上顯示出比 LLaVA-1.5 更豐富的知識儲備。
然而,在回答經(jīng)過編輯處理的圖像相關(guān)問題時,GPT-4V 未能提供精確答案。
這種現(xiàn)象可能源于 GPT-4V 更多地依賴于其參數(shù)化存儲的知識,而不是實際對圖像進行分析。
與此相反,無論是處理原始圖像還是編輯后的圖像,LLaVA-1.5 的表現(xiàn)都相對較差,這反映出 LLaVA-1.5 在視覺識別方面的能力較為有限。
觀察圖 2 提供的樣本,可以發(fā)現(xiàn) GPT-4V 和 LLaVA-1.5 均未能正確識別平行線、正三角形、多邊形及其他數(shù)學定理。
這一現(xiàn)象揭示了,對 GPT-4V 而言,在處理幾何和數(shù)學問題方面仍面臨較大挑戰(zhàn)。
在圖 3 的展示中,作者指出了幾則海報,展示的是一些知名的地方美食,但這些美食的地理特征遭到了改動。
面對這樣的場景,GPT-4V 和 LLaVA-1.5 都未能充分考慮上下文信息,忽略了圖像內(nèi)容,繼續(xù)根據(jù)文本中提及的知名產(chǎn)地來回答相關(guān)問題。
在圖 4 的案例中,作者進一步探討了對多張圖片序列的處理能力。
圖片的順序排列和倒序排列在語義上常表現(xiàn)出對立的意義,例如「出現(xiàn)與消失」和「后退與前進」。
研究比較表明,盡管這些圖片序列描繪了不同的動態(tài),GPT-4V 依然未能區(qū)分這些圖片的順序和逆序排列。
這一發(fā)現(xiàn)指出,在視頻序列推理方面,GPT-4V 仍需大幅度的優(yōu)化和提高。
圖 5 展示了一個案例,其中在缺乏圖像背景信息的情境下,GPT-4V 提供了一個斷定性的回答。
相對地,LLaVA-1.5,由于對文本的理解不足,提出了一個技術(shù)上無誤但與問題無關(guān)的答回答。
當以修改后的 π 值作為視覺輸入,兩個模型均未能從圖像中正確識別和解釋這個值。
圖 6 中的情形顯示,當缺少視覺輸入時,GPT-4V 和 LLaVA-1.5 都能準確且斷定地作出回答。
然而,在表格作為視覺輸入的情況下,GPT-4V 嘗試依據(jù)視覺信息解答,卻誤取了錯誤數(shù)據(jù)。
例如,GPT-4V 錯誤地答道「中國贏得了 36 枚金牌」,盡管圖表實際顯示的是美國獲得了這些金牌。
相比之下,LLaVA-1.5 更依賴于其參數(shù)化記憶,在分別處理問題和表格時表現(xiàn)不同。
在圖 7 的場景中,即使沒有視覺輔助,GPT-4V 和 LLaVA-1.5 都作出了斷定性的答復,其中 GPT-4V 的答案更為準確和精確。
當引入圖表作為視覺輸入,GPT-4V 能精準地根據(jù)圖表中的數(shù)據(jù)給出答案,而 LLaVA-1.5 則依賴于其參數(shù)化知識進行回答。
但是,一旦圖表被翻轉(zhuǎn),GPT-4V 對答案的預測發(fā)生了根本性變化。這個錯誤可以被解釋為由視覺錯覺引起的。
根據(jù)圖 8,在缺乏圖像支持的情形下,GPT-4V 和 LLaVA-1.5 均提供了確定的回答,但正確答案僅由 GPT-4V 給出。
由此可以推斷,GPT-4V 在知識層面上優(yōu)于 LLaVA-1.5。
然而,當?shù)貓D的視覺呈現(xiàn)發(fā)生改變時,兩種模型由于其強大的參數(shù)記憶能力,均未能正確推斷出四個州的相對位置。
總結(jié)
近年來,隨著大規(guī)模語言模型和多模態(tài)研究的快速發(fā)展,人工智能領(lǐng)域經(jīng)歷了重大的變革。
自然語言處理(NLP)和計算機視覺(CV)的結(jié)合,不僅促成了大型視覺語言模型(LVLM)的誕生,而且顯著提高了圖像推理任務的性能。
但是,LVLM 仍面臨著一些挑戰(zhàn),如語言幻覺和視覺錯覺等問題。
本研究通過推出 HallusionBench,旨在為 VLM 提供一個基準測試,特別是在那些容易因語言幻覺或視覺錯覺而失敗的復雜情況下。
我們對 GPT-4V 和 LLaVA-1.5 的不同示例和失敗案例進行了深入探討,包括:
1. 在 HallusionBench 中,GPT-4V 和 LLaVA-1.5 在處理含有先驗知識的問題時,往往會受到語言幻覺的影響。這些模型更傾向于依賴先驗知識,導致在我們的分析的例子中,超過 90% 的答案是錯誤的。因此,模型需要在參數(shù)化記憶和輸入文本圖片之間找到一個平衡點。
2. 即便是在 GPT-4V 和 LLaVA-1.5 缺乏參數(shù)化記憶或先驗知識的情況下,它們?nèi)匀蝗菀资艿揭曈X錯覺的影響。這些模型常常在處理幾何圖形、數(shù)學圖像、視頻(多圖像場景)、復雜圖表等問題時給出錯誤答案。目前,視覺語言模型在視覺處理方面的能力還很有限。
3. GPT-4V 和 LLaVA-1.5 在 HallusionBench 中容易被一些基本的圖像操作所誤導,如圖像翻轉(zhuǎn)、顛倒順序、遮擋、物體編輯以及顏色的修改等。目前的視覺語言模型尚未能有效處理這些圖像操作。
4. 雖然 GPT-4V 支持處理多圖,但在分析涉及時間線索的多圖像問題時,它未能展現(xiàn)出有效的時間推理能力,在 HallusionBench 中表現(xiàn)欠佳。
5. 在 HallusionBench 的測試中,LLaVA-1.5 由于知識庫相對較少,有時會犯下一些基本的錯誤。
作者表示,他們的數(shù)據(jù)集已經(jīng)開源,并正在繼續(xù)擴展數(shù)據(jù)庫。最新的數(shù)據(jù)會在 Github (https://github.com/ tianyi-lab / HallusionBench)上不斷更新。
這項研究為未來更加強大、平衡和精準的 LVLM 奠定了基礎,并期待通過這些詳細的案例研究,為未來研究提供一些可能方向。
參考資料:
-
https://arxiv.org/abs/2310.14566
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,所有文章均包含本聲明。
總結(jié)
以上是生活随笔為你收集整理的最新基准测试显示 GPT-4V 错误率竟高达 90%:红绿灯认错、勾股定理也不会的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 奇瑞风云 A8 官图发布:纯电续航 10
- 下一篇: 阿里云推出“云工开物”计划,给中国所有在