當前位置：首頁 >

最新基准测试显示 GPT-4V 错误率竟高达 90%：红绿灯认错、勾股定理也不会

發布時間：2024/9/5 66 生活家

生活随笔收集整理的這篇文章主要介紹了最新基准测试显示 GPT-4V 错误率竟高达 90%：红绿灯认错、勾股定理也不会小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

【新智元導讀】馬里蘭大學發布首個專為 VLM 設計的基準測試 HallusionBench，全面測試 GPT-4V 視覺錯誤和語言幻覺。

GPT-4 被吹的神乎其神，作為具備視覺能力的 GPT-4 版本 ——GPT-4V，也被大眾寄于了厚望。

但如果告訴你，初中生都知道的勾股定理，只適用于直角三角形。

然而 GPT-4V 卻自信將其用于鈍角三角形中計算斜邊長度。

還有更離譜的，GPT-4V 直接犯了致命的安全錯誤，竟然認為紅燈可以行駛。

這到底是怎么回事呢？

馬里蘭大學的研究團隊在探索過程中發現了這些問題，并在此基礎上提出了兩種主要的錯誤類型：語言幻覺和視覺錯覺，以此來闡釋這些錯誤的原因。

論文鏈接：https://arxiv.org/ abs / 2310.14566

項目主頁：https://github.com/ tianyi-lab / HallusionBench

研究人員依據上述分析，創建了一個名為 HallusionBench 的圖像-語境推理基準測試，旨在深入探討圖像與語境推理的復雜性。

基于他們的對于視覺能力的測試，GPT4V 在回答視覺問題組的錯誤率高達近 90%。

研究者們還對新發布的 GPT-4V (ision) 和 LLaVA-1.5 進行了詳細的研究，深入分析了它們在視覺理解方面的能力。

HallusionBench 是第一個專為 VLM 設計的基準測試，主要關注視覺錯覺和知識幻覺。這個測試包括約 200 組視覺問答，其中近一半是由人工專家創作的。

目前數據已經開源，并且還在更新中。

涉及的圖片類型多樣，包括原始的錯覺圖片、圖表、地圖、海報、視頻及手動制作或修改的圖片，涵蓋數學、計數、文化、動漫、體育和地理等多個領域。

論文中，作者初步闡述了 HallusionBench 中的兩種視覺問題分類：視覺依賴型（Visual Dependent）和視覺補充型（Visual Supplement），并討論了實驗對照組的設計方法。

隨后，他們分析了可能導致答案錯誤的兩大主要原因：視覺錯覺（Visual Illusion）和語言幻覺（Language Hallucination）。

在文末，作者通過不同的子類別詳細展示了各主要類別中的失敗案例，并進行了深入的分析。

關鍵點：

1. 「語言幻覺」：在 GPT-4V 和 LLaVA-1.5 中會誤導 90% 的樣本推理。視覺與語言之間的微妙平衡至關重要！

2. 「視覺錯覺」：LVLMs 中的視覺模塊容易受到復雜視覺上下文的影響，語言模型的錯誤被夸大。

3. 簡單的圖像修改就能欺騙 GPT-4V 和 LLaVA-1.5，暴露了對更強大的圖像分析能力的需求。

4. GPT-4V 在推理多個圖像之間的時間關系方面存在困難。

5. LLaVA-1.5 有時會在常識查詢上犯錯，需要改進其語言模型先驗。

視覺問題類型

視覺依賴型問題 (Visual Dependent)：

這類問題的答案完全依賴于視覺內容，缺乏圖像信息時無法確切回答。

這些問題通常關聯到圖像本身或其顯示的內容。例如，在沒有圖像的情況下，無法準確回答諸如「圖中右側的橙色圓圈是否與左側的同樣大小？」之類的問題。

視覺補充型問題 (Visual Supplement)：

這些問題即使在沒有視覺內容的情況下也能得到回答。在這種類型的問題中，視覺元素僅提供附加信息。

比如，即便沒有圖片輔助，GPT-4V 仍能回答「新墨西哥州是否比德克薩斯州大？」等問題。

測試的核心在于判斷 GPT-4V 和 LLaVA-1.5 能否利用圖像內容來作答，而不是僅憑它們的參數化記憶。

錯誤分類

作者對錯誤回答進行了分析，并將其原因分為兩大類：

視覺錯誤 (Language Hallucination)：

這類錯誤產生于對輸入圖像的錯誤視覺識別和解釋。模型未能從圖像中提取準確信息或對其進行正確推斷。

語言幻覺 (Visual Illusion)：

模型基于其參數化知識庫，對問題輸入和圖像背景作出不恰當的先入為主的假設。模型應當針對問題的具體環境作出反應，而不是忽略問題本身或對圖像作出錯誤解讀。

范例

從圖 1 所展示的經典視覺錯覺案例中可見，GPT-4V 在識別各種錯覺圖像及其名稱上顯示出比 LLaVA-1.5 更豐富的知識儲備。

圖 1

然而，在回答經過編輯處理的圖像相關問題時，GPT-4V 未能提供精確答案。

這種現象可能源于 GPT-4V 更多地依賴于其參數化存儲的知識，而不是實際對圖像進行分析。

與此相反，無論是處理原始圖像還是編輯后的圖像，LLaVA-1.5 的表現都相對較差，這反映出 LLaVA-1.5 在視覺識別方面的能力較為有限。

觀察圖 2 提供的樣本，可以發現 GPT-4V 和 LLaVA-1.5 均未能正確識別平行線、正三角形、多邊形及其他數學定理。

這一現象揭示了，對 GPT-4V 而言，在處理幾何和數學問題方面仍面臨較大挑戰。

圖 2

在圖 3 的展示中，作者指出了幾則海報，展示的是一些知名的地方美食，但這些美食的地理特征遭到了改動。

面對這樣的場景，GPT-4V 和 LLaVA-1.5 都未能充分考慮上下文信息，忽略了圖像內容，繼續根據文本中提及的知名產地來回答相關問題。

圖 3

在圖 4 的案例中，作者進一步探討了對多張圖片序列的處理能力。

圖片的順序排列和倒序排列在語義上常表現出對立的意義，例如「出現與消失」和「后退與前進」。

圖 4

研究比較表明，盡管這些圖片序列描繪了不同的動態，GPT-4V 依然未能區分這些圖片的順序和逆序排列。

這一發現指出，在視頻序列推理方面，GPT-4V 仍需大幅度的優化和提高。

圖 5 展示了一個案例，其中在缺乏圖像背景信息的情境下，GPT-4V 提供了一個斷定性的回答。

圖 5

相對地，LLaVA-1.5，由于對文本的理解不足，提出了一個技術上無誤但與問題無關的答回答。

當以修改后的 π 值作為視覺輸入，兩個模型均未能從圖像中正確識別和解釋這個值。

圖 6 中的情形顯示，當缺少視覺輸入時，GPT-4V 和 LLaVA-1.5 都能準確且斷定地作出回答。

圖 6

然而，在表格作為視覺輸入的情況下，GPT-4V 嘗試依據視覺信息解答，卻誤取了錯誤數據。

例如，GPT-4V 錯誤地答道「中國贏得了 36 枚金牌」，盡管圖表實際顯示的是美國獲得了這些金牌。

相比之下，LLaVA-1.5 更依賴于其參數化記憶，在分別處理問題和表格時表現不同。

在圖 7 的場景中，即使沒有視覺輔助，GPT-4V 和 LLaVA-1.5 都作出了斷定性的答復，其中 GPT-4V 的答案更為準確和精確。

圖 7

當引入圖表作為視覺輸入，GPT-4V 能精準地根據圖表中的數據給出答案，而 LLaVA-1.5 則依賴于其參數化知識進行回答。

但是，一旦圖表被翻轉，GPT-4V 對答案的預測發生了根本性變化。這個錯誤可以被解釋為由視覺錯覺引起的。

根據圖 8，在缺乏圖像支持的情形下，GPT-4V 和 LLaVA-1.5 均提供了確定的回答，但正確答案僅由 GPT-4V 給出。

圖 8

由此可以推斷，GPT-4V 在知識層面上優于 LLaVA-1.5。

然而，當地圖的視覺呈現發生改變時，兩種模型由于其強大的參數記憶能力，均未能正確推斷出四個州的相對位置。

總結

近年來，隨著大規模語言模型和多模態研究的快速發展，人工智能領域經歷了重大的變革。

自然語言處理（NLP）和計算機視覺（CV）的結合，不僅促成了大型視覺語言模型（LVLM）的誕生，而且顯著提高了圖像推理任務的性能。

但是，LVLM 仍面臨著一些挑戰，如語言幻覺和視覺錯覺等問題。

本研究通過推出 HallusionBench，旨在為 VLM 提供一個基準測試，特別是在那些容易因語言幻覺或視覺錯覺而失敗的復雜情況下。

我們對 GPT-4V 和 LLaVA-1.5 的不同示例和失敗案例進行了深入探討，包括：

1. 在 HallusionBench 中，GPT-4V 和 LLaVA-1.5 在處理含有先驗知識的問題時，往往會受到語言幻覺的影響。這些模型更傾向于依賴先驗知識，導致在我們的分析的例子中，超過 90% 的答案是錯誤的。因此，模型需要在參數化記憶和輸入文本圖片之間找到一個平衡點。

2. 即便是在 GPT-4V 和 LLaVA-1.5 缺乏參數化記憶或先驗知識的情況下，它們仍然容易受到視覺錯覺的影響。這些模型常常在處理幾何圖形、數學圖像、視頻（多圖像場景）、復雜圖表等問題時給出錯誤答案。目前，視覺語言模型在視覺處理方面的能力還很有限。

3. GPT-4V 和 LLaVA-1.5 在 HallusionBench 中容易被一些基本的圖像操作所誤導，如圖像翻轉、顛倒順序、遮擋、物體編輯以及顏色的修改等。目前的視覺語言模型尚未能有效處理這些圖像操作。

4. 雖然 GPT-4V 支持處理多圖，但在分析涉及時間線索的多圖像問題時，它未能展現出有效的時間推理能力，在 HallusionBench 中表現欠佳。

5. 在 HallusionBench 的測試中，LLaVA-1.5 由于知識庫相對較少，有時會犯下一些基本的錯誤。

作者表示，他們的數據集已經開源，并正在繼續擴展數據庫。最新的數據會在 Github （https://github.com/ tianyi-lab / HallusionBench）上不斷更新。

這項研究為未來更加強大、平衡和精準的 LVLM 奠定了基礎，并期待通過這些詳細的案例研究，為未來研究提供一些可能方向。

參考資料：

https://arxiv.org/abs/2310.14566

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節省甄選時間，結果僅供參考，所有文章均包含本聲明。

總結

以上是生活随笔為你收集整理的最新基准测试显示 GPT-4V 错误率竟高达 90%：红绿灯认错、勾股定理也不会的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：奇瑞风云 A8 官图发布：纯电续航 10
下一篇：阿里云推出“云工开物”计划，给中国所有在

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

最新基准测试显示 GPT-4V 错误率竟高达 90%：红绿灯认错、勾股定理也不会

視覺問題類型

錯誤分類

范例

總結

總結