色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

低成本擴大輸入分辨率!華科大提出Monkey:新的多模態大模型

CVer ? 來源:CVer ? 2023-12-04 15:33 ? 次閱讀

低成本擴大輸入分辨率:探秘98億參數多模態大模型--Monkey眼中的世界

【導讀】11月,華中科技大學團隊發布了新的多模態大模型——Monkey,通過專注于大分辨率,使得Monkey能夠處理分辨率高達1344×896的圖像,并加入了有著詳細描述的高質量圖文數據進行訓練,幫助Monkey煉就洞察圖像細節的火眼金睛,取得了與Caption和QA任務相關的16個數據集的SOTA,甚至與GPT4V相比,在密集文本問答任務上也有著亮眼的表現。

論文鏈接:https://arxiv.org/abs/2311.06607

代碼地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的問答任務上取得了很不錯的效果,可以根據問題的要求進行推理,能夠適配中文問答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本較少的場景中Monkey也展現了不俗的問答能力,自身擁有豐富的知識庫,可以根據問題進行外推,從而回答出正確的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任務上同樣取得了出色的結果,不僅僅是對圖片進行準確詳細的描述,同時能夠合理發散,分析出圖片所傳達的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進行問答的可視化結果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下圖展示了Monkey的卓越性能,在 18 個不同的數據集上進行測試的結果表明,Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務,并在16個數據集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個圖片塊,再將這些圖片塊和原始輸入圖片統一到448*448的尺寸。每個圖片塊經過視覺編碼時會加入一個專屬的Lora以此更好地提取圖片塊的局部視覺特征,訓練時僅訓練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達到增大輸入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多級特征融合的詳細描述生成方法生成高質量圖文數據

主要分為五個步驟:第一步,使用BLIP2對整張圖生成全局描述;第二步用 GRIT生成區域框,并提供區域中對象的名稱和詳細描述,同時使用PPOCR提取區域的文本框坐標和文本內容;第三步使用SAM進行分割,并送入BLIP2生成對各個物體及其組成部分的詳細描述;第四步使用BLIP-2 評估過濾掉低分匹配;最后使用ChatGPT 對上述得到的描述進行總結從而得到圖像的詳細描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下圖為使用使用多級特征融合的詳細描述生成方法后得到的標注與原始CC3M標注的對比,不難看出,兩種標注之間存在著較大的差距,生成的詳細標注盡可能地包含了圖片中的各種細節,而不像是CC3M地原始標注那樣一句帶過。利用這樣高質量的圖文數據進行訓練,使得Monkey能夠更好地把握圖文之間的關系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可視化對比結果與展示:

通過下圖展示的Monkey在QA任務上與多種大模型的對比結果,從中我們能夠更加直觀地感受到Monkey強大的問答能力,能夠準確地把握住問題并給出正確的回答,尤其是在密集文本問答任務上,目前的大模型或多或少都面臨著一定的問題,Monkey為解決這一難題提供了一條可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

總結

Monkey提出了一種訓練高效的方法,無需預訓練即可有效地提高模型的輸入分辨率,最高可達896 x 1344像素。為了彌補簡單文本標簽和高分辨率輸入之間的差距,Monkey提出了一種多級特征融合的詳細描述生成方法,它可以自動提供豐富的信息,以引導模型學習圖像中各個物體的屬性及其聯系。通過這兩種設計的協同作用,Monkey練就了一雙火眼金睛,在多個基準測試中取得了出色的結果。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 高分辨率
    +關注

    關注

    0

    文章

    46

    瀏覽量

    15334
  • 圖像
    +關注

    關注

    2

    文章

    1089

    瀏覽量

    40531
  • 大模型
    +關注

    關注

    2

    文章

    2533

    瀏覽量

    3004

原文標題:低成本擴大輸入分辨率!華科大提出Monkey:新的多模態大模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問SAR ADC有效分辨率與采樣有關嗎?

    是不是所有的ADC都是采樣越高、分辨率越差(跳動位數越多)? 我的實驗: ADS8556是16位SAR ADC,最高采樣500KhZ。使用20k采樣
    發表于 01-15 07:57

    TVP7002 VGA輸入分辨率支持1280 x 1536嗎?

    TVP7002 VGA 輸入分辨率支持1280 x 1536嗎? TVP7002 VGA 輸入能自動偵察VGA信號所使用的分辨率嗎?如可以則讀哪些寄存器,有例子嗎?
    發表于 01-14 07:27

    如何提高透鏡成像的分辨率

    透鏡成像分辨率是指透鏡系統能夠分辨的最小細節的能力。提高透鏡成像分辨率對于許多應用領域,如顯微鏡、望遠鏡、相機等,都是至關重要的。以下是一些提高透鏡成像分辨率的方法: 1. 減少像差
    的頭像 發表于 12-25 16:54 ?416次閱讀

    如何選擇掃描電鏡的分辨率?

    選擇掃描電鏡的分辨率需要綜合考慮多個因素。首先是研究目的。如果只是需要對樣品的大致形貌進行觀察,例如查看較大顆粒的分布或者材料表面的宏觀缺陷,較低分辨率(如3-10nm)可能就足夠了。但如果要觀察
    的頭像 發表于 12-25 14:29 ?234次閱讀
    如何選擇掃描電鏡的<b class='flag-5'>分辨率</b>?

    商湯日日新模態模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?304次閱讀

    HDMI接口支持哪些視頻分辨率

    HDMI(High-Definition Multimedia Interface)接口支持的視頻分辨率因版本不同而有所差異。以下是HDMI接口不同版本所支持的視頻分辨率的概述: HDMI 1.4
    的頭像 發表于 11-27 14:14 ?3123次閱讀

    視頻處理器的分辨率是如何管理的

    ? ? 隨著電子應用技術和消費市場的不斷發展,LED顯示屏的顯示單元之間的間距正在逐漸縮小,然而,顯示屏的整體面積卻在不斷擴大。為了滿足這一趨勢下對超大輸分辨率的需求,視頻處理器和拼接器變得
    的頭像 發表于 11-11 15:25 ?321次閱讀
    視頻處理器的<b class='flag-5'>分辨率</b>是如何管理的

    提高SAR ADC的分辨率

    電子發燒友網站提供《提高SAR ADC的分辨率.pdf》資料免費下載
    發表于 10-25 09:11 ?0次下載
    提高SAR ADC的<b class='flag-5'>分辨率</b>

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?515次閱讀

    什么是高分辨率示波器?它有哪些優勢?

    分辨率示波器是一種在信息與系統科學相關工程與技術領域中廣泛應用的科學儀器,其設計旨在提供更高的信號分辨率和更精細的信號分析能力。以下是對高分辨率示波器的詳細解析,包括其定義、優勢以及可能涉及的多個方面。
    的頭像 發表于 08-08 11:49 ?1083次閱讀

    VR顯示器分辨率的選擇

    一、VR顯示器分辨率的重要性 1.1 分辨率與視覺體驗 分辨率是指顯示器上能夠顯示的像素點的數量,通常用水平像素數×垂直像素數來表示。在VR顯示器中,分辨率直接影響到用戶的視覺體驗。高
    的頭像 發表于 07-08 10:29 ?1194次閱讀

    伺服編碼器分辨率是什么意思

    伺服編碼器分辨率是指編碼器能夠檢測到的最小角度或位置變化。在伺服系統中,編碼器用于測量電機軸或負載的位置和速度,以實現精確控制。分辨率越高,編碼器能夠檢測到的最小變化越小,從而實現更精確的控制
    的頭像 發表于 06-17 11:16 ?1044次閱讀

    基于CNN的圖像超分辨率示例

    考慮單個低分辨率圖像,首先使用雙三次插值將其放大到所需的大小,這是執行的唯一預處理。將插值圖像表示為Y。我們的目標是從Y中恢復與真實高分辨率圖像X盡可能相似的圖像F (Y) 。
    的頭像 發表于 03-11 11:40 ?739次閱讀
    基于CNN的圖像超<b class='flag-5'>分辨率</b>示例

    華為pockets屏幕分辨率是多少

    華為Pocket S的內屏分辨率是2790×1188,外屏分辨率為340×340。該手機采用了6.9英寸的柔性OLED屏幕,支持120Hz刷新、1440Hz高頻PWM調光,色彩表現達到10.7億色,同時還配備了防反光納米光學膜
    的頭像 發表于 03-06 17:37 ?1233次閱讀

    編碼器分辨率是什么意思 編碼器分辨率和脈沖數的關系

    按照編碼器支持的分辨率可以把編碼器分成標清編碼器、高清編碼器、全高清編碼器,分辨率越高幀率越高視頻就越清楚。 1.編碼器的分辨率是什么意思 編碼器的分辨率是指編碼器以每旋轉360度提供
    的頭像 發表于 02-21 18:07 ?4480次閱讀
    編碼器<b class='flag-5'>分辨率</b>是什么意思 編碼器<b class='flag-5'>分辨率</b>和脈沖數的關系
    主站蜘蛛池模板: 久久综合中文字幕无码| adc年龄确认大驾光临入口| 麻豆AV无码精品一区二区| 国产成人精品区在线观看| 91桃色污无限免费看| 亚洲高清视频一区| 日本亚洲电影| 老头xxx| 精品96在线观看影院| 大屁股妇女流出白浆| 99九九精品国产高清自在线| 亚洲视频第二页| 忘忧草在线影院WWW日本二| 欧美另类z0z000高清| 久久综合色超碰人人| 簧片高清在线观看| 国产精品97久久AV色婷婷综合| WRITEAS检查身体| 99视频全部看免费观| 在线电影一区二区| 亚洲视频999| 亚洲乱码国产乱码精品精98| 翁公咬着小娇乳H边走边欢A| 日韩精品一卡二卡三卡四卡2021 | 欧美一区二区三区久久综| 久久综合给会久久狠狠狠| 精品少妇爆AV无码专区| 国产亚洲精品久久播放| 国产高清砖码区| 国产精品久久久久婷婷五月色| 儿子操妈妈视频| 大香伊蕉在人线国产最新| 动漫美女3d被爆漫画| 大学生第一次破苞疼哭了| 成激人情在线影院920| 操他射他影院| 大陆老熟女60岁| 国产成人高清视频| 国产精品成人影院| 国产精品亚洲高清一区二区| 国产精品嫩草影院|