色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

最新基準測試錯誤率竟高達90%:紅綠燈認錯、勾股定理也不會

OpenCV學堂 ? 來源:新智元 ? 2023-11-02 16:00 ? 次閱讀

【導讀】馬里蘭大學發布首個專為VLM設計的基準測試HallusionBench,全面測試GPT-4V視覺錯誤和語言幻覺。

GPT-4被吹的神乎其神,作為具備視覺能力的GPT-4版本——GPT-4V,也被大眾寄于了厚望。 但如果告訴你,初中生都知道的勾股定理,只適用于直角三角形。 然而GPT-4V卻自信將其用于鈍角三角形中計算斜邊長度。

0d2da384-78cb-11ee-939d-92fbcf53809c.png

還有更離譜的,GPT-4V直接犯了致命的安全錯誤,竟然認為紅燈可以行駛。

0d324808-78cb-11ee-939d-92fbcf53809c.png

這到底是怎么回事呢? 馬里蘭大學的研究團隊在探索過程中發現了這些問題,并在此基礎上提出了兩種主要的錯誤類型:語言幻覺和視覺錯覺,以此來闡釋這些錯誤的原因。

0d458e36-78cb-11ee-939d-92fbcf53809c.png

論文鏈接:https://arxiv.org/abs/2310.14566

項目主頁:https://github.com/tianyi-lab/HallusionBench

研究人員依據上述分析,創建了一個名為HallusionBench的圖像-語境推理基準測試,旨在深入探討圖像與語境推理的復雜性。 基于他們的對于視覺能力的測試,GPT4V在回答視覺問題組的錯誤率高達近90%。

0d4d8280-78cb-11ee-939d-92fbcf53809c.jpg

研究者們還對新發布的GPT-4V(ision)和LLaVA-1.5進行了詳細的研究,深入分析了它們在視覺理解方面的能力。 HallusionBench是第一個專為VLM設計的基準測試,主要關注視覺錯覺和知識幻覺。這個測試包括約200組視覺問答,其中近一半是由人工專家創作的。 目前數據已經開源, 并且還在更新中。 涉及的圖片類型多樣,包括原始的錯覺圖片、圖表、地圖、海報、視頻及手動制作或修改的圖片,涵蓋數學、計數、文化、動漫、體育和地理等多個領域。 論文中,作者初步闡述了HallusionBench中的兩種視覺問題分類:視覺依賴型(Visual Dependent)和視覺補充型(Visual Supplement),并討論了實驗對照組的設計方法。 隨后,他們分析了可能導致答案錯誤的兩大主要原因:視覺錯覺(Visual Illusion)和語言幻覺(Language Hallucination)。 在文末,作者通過不同的子類別詳細展示了各主要類別中的失敗案例,并進行了深入的分析。關鍵點: 1. 「語言幻覺」:在GPT-4V和LLaVA-1.5中會誤導90%的樣本推理。視覺與語言之間的微妙平衡至關重要! 2. 「視覺錯覺」:LVLMs中的視覺模塊容易受到復雜視覺上下文的影響,語言模型的錯誤被夸大。 3. 簡單的圖像修改就能欺騙GPT-4V和LLaVA-1.5,暴露了對更強大的圖像分析能力的需求。 4. GPT-4V在推理多個圖像之間的時間關系方面存在困難。 5. LLaVA-1.5有時會在常識查詢上犯錯,需要改進其語言模型先驗。

視覺問題類型

視覺依賴型問題(Visual Dependent):

這類問題的答案完全依賴于視覺內容,缺乏圖像信息時無法確切回答。

這些問題通常關聯到圖像本身或其顯示的內容。例如,在沒有圖像的情況下,無法準確回答諸如「圖中右側的橙色圓圈是否與左側的同樣大?。俊怪惖膯栴}。

視覺補充型問題(Visual Supplement):

這些問題即使在沒有視覺內容的情況下也能得到回答。在這種類型的問題中,視覺元素僅提供附加信息

比如,即便沒有圖片輔助,GPT-4V仍能回答「新墨西哥州是否比德克薩斯州大?」等問題。

測試的核心在于判斷GPT-4V和LLaVA-1.5能否利用圖像內容來作答,而不是僅憑它們的參數化記憶。

錯誤分類

作者對錯誤回答進行了分析,并將其原因分為兩大類:

視覺錯誤(Language Hallucination):

這類錯誤產生于對輸入圖像的錯誤視覺識別和解釋。模型未能從圖像中提取準確信息或對其進行正確推斷。語言幻覺(Visual Illusion):

模型基于其參數化知識庫,對問題輸入和圖像背景作出不恰當的先入為主的假設。模型應當針對問題的具體環境作出反應,而不是忽略問題本身或對圖像作出錯誤解讀。

范例

從圖1所展示的經典視覺錯覺案例中可見,GPT-4V在識別各種錯覺圖像及其名稱上顯示出比LLaVA-1.5更豐富的知識儲備。

0d60089c-78cb-11ee-939d-92fbcf53809c.png

圖1 然而,在回答經過編輯處理的圖像相關問題時,GPT-4V未能提供精確答案。 這種現象可能源于GPT-4V更多地依賴于其參數化存儲的知識,而不是實際對圖像進行分析。 與此相反,無論是處理原始圖像還是編輯后的圖像,LLaVA-1.5的表現都相對較差,這反映出LLaVA-1.5在視覺識別方面的能力較為有限。 觀察圖2提供的樣本,可以發現GPT-4V和LLaVA-1.5均未能正確識別平行線、正三角形、多邊形及其他數學定理。 這一現象揭示了,對GPT-4V而言,在處理幾何和數學問題方面仍面臨較大挑戰。

0d659690-78cb-11ee-939d-92fbcf53809c.png

圖2 在圖3的展示中,作者指出了幾則海報,展示的是一些知名的地方美食,但這些美食的地理特征遭到了改動。 面對這樣的場景,GPT-4V和LLaVA-1.5都未能充分考慮上下文信息,忽略了圖像內容,繼續根據文本中提及的知名產地來回答相關問題。

0d7b57aa-78cb-11ee-939d-92fbcf53809c.png

圖3 在圖4的案例中,作者進一步探討了對多張圖片序列的處理能力。 圖片的順序排列和倒序排列在語義上常表現出對立的意義,例如「出現與消失」和「后退與前進」。

0d8bc216-78cb-11ee-939d-92fbcf53809c.png

圖4 研究比較表明,盡管這些圖片序列描繪了不同的動態,GPT-4V依然未能區分這些圖片的順序和逆序排列。 這一發現指出,在視頻序列推理方面,GPT-4V仍需大幅度的優化和提高。 圖5展示了一個案例,其中在缺乏圖像背景信息的情境下,GPT-4V提供了一個斷定性的回答。

0d9066d6-78cb-11ee-939d-92fbcf53809c.png

圖5 相對地,LLaVA-1.5,由于對文本的理解不足,提出了一個技術上無誤但與問題無關的答回答。 當以修改后的π值作為視覺輸入,兩個模型均未能從圖像中正確識別和解釋這個值。 圖6中的情形顯示,當缺少視覺輸入時,GPT-4V和LLaVA-1.5都能準確且斷定地作出回答。

0de0d288-78cb-11ee-939d-92fbcf53809c.png

圖6 然而,在表格作為視覺輸入的情況下,GPT-4V嘗試依據視覺信息解答,卻誤取了錯誤數據。 例如,GPT-4V錯誤地答道「中國贏得了36枚金牌」,盡管圖表實際顯示的是美國獲得了這些金牌。 相比之下,LLaVA-1.5更依賴于其參數化記憶,在分別處理問題和表格時表現不同。 在圖7的場景中,即使沒有視覺輔助,GPT-4V和LLaVA-1.5都作出了斷定性的答復,其中GPT-4V的答案更為準確和精確。

0e05426c-78cb-11ee-939d-92fbcf53809c.png

圖7 當引入圖表作為視覺輸入,GPT-4V能精準地根據圖表中的數據給出答案,而LLaVA-1.5則依賴于其參數化知識進行回答。 但是,一旦圖表被翻轉,GPT-4V對答案的預測發生了根本性變化。這個錯誤可以被解釋為由視覺錯覺引起的。 根據圖8,在缺乏圖像支持的情形下,GPT-4V和LLaVA-1.5均提供了確定的回答,但正確答案僅由GPT-4V給出。

0e2776fc-78cb-11ee-939d-92fbcf53809c.png

圖8 由此可以推斷,GPT-4V在知識層面上優于LLaVA-1.5。 然而,當地圖的視覺呈現發生改變時,兩種模型由于其強大的參數記憶能力,均未能正確推斷出四個州的相對位置。

總結

近年來,隨著大規模語言模型和多模態研究的快速發展,人工智能領域經歷了重大的變革。 自然語言處理(NLP)和計算機視覺(CV)的結合,不僅促成了大型視覺語言模型(LVLM)的誕生,而且顯著提高了圖像推理任務的性能。 但是,LVLM仍面臨著一些挑戰,如語言幻覺和視覺錯覺等問題。 本研究通過推出HallusionBench,旨在為VLM提供一個基準測試,特別是在那些容易因語言幻覺或視覺錯覺而失敗的復雜情況下。 我們對GPT-4V和LLaVA-1.5的不同示例和失敗案例進行了深入探討,包括: 1. 在HallusionBench中,GPT-4V和LLaVA-1.5在處理含有先驗知識的問題時,往往會受到語言幻覺的影響。這些模型更傾向于依賴先驗知識,導致在我們的分析的例子中,超過90%的答案是錯誤的。因此,模型需要在參數化記憶和輸入文本圖片之間找到一個平衡點。 2. 即便是在GPT-4V和LLaVA-1.5缺乏參數化記憶或先驗知識的情況下,它們仍然容易受到視覺錯覺的影響。這些模型常常在處理幾何圖形、數學圖像、視頻(多圖像場景)、復雜圖表等問題時給出錯誤答案。目前,視覺語言模型在視覺處理方面的能力還很有限。 3. GPT-4V和LLaVA-1.5在HallusionBench中容易被一些基本的圖像操作所誤導,如圖像翻轉、顛倒順序、遮擋、物體編輯以及顏色的修改等。目前的視覺語言模型尚未能有效處理這些圖像操作。 4. 雖然GPT-4V支持處理多圖,但在分析涉及時間線索的多圖像問題時,它未能展現出有效的時間推理能力,在HallusionBench中表現欠佳。 5. 在HallusionBench的測試中,LLaVA-1.5由于知識庫相對較少,有時會犯下一些基本的錯誤。 作者表示,他們的數據集已經開源,并正在繼續擴展數據庫。最新的數據會在Github (https://github.com/tianyi-lab/HallusionBench)上不斷更新。 這項研究為未來更加強大、平衡和精準的LVLM奠定了基礎,并期待通過這些詳細的案例研究,為未來研究提供一些可能方向。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1087

    瀏覽量

    40505
  • 模型
    +關注

    關注

    1

    文章

    3268

    瀏覽量

    48934
  • 視覺
    +關注

    關注

    1

    文章

    147

    瀏覽量

    23985

原文標題:GPT-4V連小學生都不如?最新基準測試錯誤率竟高達90%:紅綠燈認錯、勾股定理也不會

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    紅綠燈小程序

    `初學,搞個紅綠燈小程序。勿拍。。。`
    發表于 08-30 15:02

    交通紅綠燈

    本帖最后由 samuergao 于 2014-7-3 14:13 編輯 交通燈,并顯示當前時間和倒計時,包含了單條路遇到人行道的紅綠燈,還有十字路口的紅綠燈,大家幫看看有的改進沒有。
    發表于 07-03 12:12

    紅綠燈問題求助?

    求做個紅綠燈 就一個路的紅綠燈
    發表于 10-22 10:53

    【分享】紅綠燈的設計

    本帖最后由 elecfans跑堂 于 2015-9-16 10:49 編輯 紅綠燈 的設計,大神看看
    發表于 09-15 22:37

    紅綠燈

    `功能:1實現倒計時2實現黃燈閃爍3實現人行道紅綠燈提示 `
    發表于 12-28 14:55

    紅綠燈

    簡單的紅綠燈狀態機做CLD練習用的,比較簡單,發出來和大家交流一下
    發表于 12-21 14:32

    紅綠燈交替閃光燈電路

    紅綠燈交替閃光燈電路
    發表于 01-17 14:03 ?3999次閱讀
    <b class='flag-5'>紅綠燈</b>交替閃光燈電路

    基于51單片機的紅綠燈設計

    這是一個基于51單片機的紅綠燈設計,可以實現紅綠燈的功能,同時還有特殊情況是單向通行。
    發表于 01-06 14:30 ?67次下載

    005——帶時間顯示的紅綠燈

    005——帶時間顯示的紅綠燈.........................
    發表于 04-28 09:49 ?18次下載

    紅綠燈源程序

    紅綠燈源程序,感興趣的小伙伴們可以看看。
    發表于 06-17 15:42 ?33次下載

    紅綠燈的供電狀況解析

    很多紅綠燈則是“黑戶”(并不代表違規哦),它們的電則是從附近“借”來的,來源也是五花八門:附近的路燈、企業、公變臺區等等……這些紅綠燈,供電公司一般是不知道它的運行情況的
    的頭像 發表于 12-04 16:53 ?6758次閱讀

    雙路紅綠燈開源分享

    電子發燒友網站提供《雙路紅綠燈開源分享.zip》資料免費下載
    發表于 10-31 11:14 ?1次下載
    雙路<b class='flag-5'>紅綠燈</b>開源分享

    Arduino迷你紅綠燈

    電子發燒友網站提供《Arduino迷你紅綠燈.zip》資料免費下載
    發表于 06-30 14:30 ?0次下載
    Arduino迷你<b class='flag-5'>紅綠燈</b>

    用樹莓派控制交通紅綠燈(進階版)

    哇奧,今天才發現上一次建造的紅綠燈居然不對,綠燈一般在下方,當紅燈變綠燈時黃燈閃爍,我做的是綠燈變紅燈時黃燈閃爍!。這在我們開發時會碰到,
    的頭像 發表于 07-02 15:10 ?1962次閱讀
    用樹莓派控制交通<b class='flag-5'>紅綠燈</b>(進階版)

    揭秘 “紅綠燈倒計時” 原理

    如今,高德“紅綠燈倒計時”功能已服務遍布全國范圍內近240個城市的8萬多個紅綠燈路口,未來還將進一步拓展至更高數量級。
    的頭像 發表于 02-21 17:19 ?2035次閱讀
    主站蜘蛛池模板: 99re6久久在热线视频| 国产精品欧美一区二区在线看| 国产普通话精品久久| 亚洲国产在线观看免费视频| 国精品产露脸偷拍视频| 一个人免费观看在线视频播放| 狂躁美女BBBBBB视频| qvod在线观看| 手机移动oa| 激情女人花| QVOD在线播放| 亚洲精品第一页中文字幕| 久久亚洲精品AV成人无| x69老师x日本| 新影音先锋男人色资源网| 老熟女重囗味HDXX| 国产AV天堂亚洲AV麻豆| 伊人综合在线影院| 日日干夜夜艹| 久久精品AV麻豆| 动态抽插图视频| 在线 日韩 欧美 国产 社区| 秋霞电影在线观看午夜伦| 国内精品伊人久久久影院| 99久久久久国产精品免费| 亚洲 自拍 欧洲 视频二区| 美女的让男人桶爽网站| 国产精品视频第一区二区三区| 越南女子杂交内射BBWXZ| 日韩高清一区二区三区不卡| 久久成人免费观看草草影院| 钉钉女老师| 91免费永久在线地址| 亚洲高清无码在线 视频| 欧洲内射VIDEOXXX3D| 久久激情影院| 国产精品伊人| 被公疯狂玩弄的漂亮人妻| 伊人大香线蕉精品在线播放| 熟女人妻久久精品AV天堂| 蜜柚在线观看免费高清官网视频|