亚洲人成在线精品不卡网,亚欧乱色束缚一区二区三区,综合亚洲欧美

低成本擴大輸入分辨率：探秘98億參數多模態大模型--Monkey眼中的世界

【導讀】11月，華中科技大學團隊發布了新的多模態大模型——Monkey，通過專注于大分辨率，使得Monkey能夠處理分辨率高達1344×896的圖像，并加入了有著詳細描述的高質量圖文數據進行訓練，幫助Monkey煉就洞察圖像細節的火眼金睛，取得了與Caption和QA任務相關的16個數據集的SOTA，甚至與GPT4V相比，在密集文本問答任務上也有著亮眼的表現。

論文鏈接：https://arxiv.org/abs/2311.06607

代碼地址：https://github.com/Yuliang-Liu/Monkey

官方demo效果展示：

Monkey在密集文本的問答任務上取得了很不錯的效果，可以根據問題的要求進行推理，能夠適配中文問答

在文本較少的場景中Monkey也展現了不俗的問答能力，自身擁有豐富的知識庫，可以根據問題進行外推，從而回答出正確的答案

Monkey在Caption任務上同樣取得了出色的結果，不僅僅是對圖片進行準確詳細的描述，同時能夠合理發散，分析出圖片所傳達的一些抽象含義

以下是Monkey同GPT4V在密集文本與圖表上進行問答的可視化結果展示。

下圖展示了Monkey的卓越性能，在 18 個不同的數據集上進行測試的結果表明，Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務，并在16個數據集上取得SOTA。

方法介紹:

1. 增大輸入分辨率

將原始輸入圖片裁剪成多個圖片塊，再將這些圖片塊和原始輸入圖片統一到448*448的尺寸。每個圖片塊經過視覺編碼時會加入一個專屬的Lora以此更好地提取圖片塊的局部視覺特征，訓練時僅訓練Lora部分，而原始的輸入圖像則用于提取全局特征，以此方法達到增大輸入分辨率的目的。

2. 多級特征融合的詳細描述生成方法生成高質量圖文數據

主要分為五個步驟：第一步，使用BLIP2對整張圖生成全局描述；第二步用 GRIT生成區域框，并提供區域中對象的名稱和詳細描述，同時使用PPOCR提取區域的文本框坐標和文本內容；第三步使用SAM進行分割，并送入BLIP2生成對各個物體及其組成部分的詳細描述；第四步使用BLIP-2 評估過濾掉低分匹配；最后使用ChatGPT 對上述得到的描述進行總結從而得到圖像的詳細描述。

下圖為使用使用多級特征融合的詳細描述生成方法后得到的標注與原始CC3M標注的對比，不難看出，兩種標注之間存在著較大的差距，生成的詳細標注盡可能地包含了圖片中的各種細節，而不像是CC3M地原始標注那樣一句帶過。利用這樣高質量的圖文數據進行訓練，使得Monkey能夠更好地把握圖文之間的關系。

更多的可視化對比結果與展示:

通過下圖展示的Monkey在QA任務上與多種大模型的對比結果，從中我們能夠更加直觀地感受到Monkey強大的問答能力，能夠準確地把握住問題并給出正確的回答，尤其是在密集文本問答任務上，目前的大模型或多或少都面臨著一定的問題，Monkey為解決這一難題提供了一條可行的出路。

總結

Monkey提出了一種訓練高效的方法，無需預訓練即可有效地提高模型的輸入分辨率，最高可達896 x 1344像素。為了彌補簡單文本標簽和高分辨率輸入之間的差距，Monkey提出了一種多級特征融合的詳細描述生成方法，它可以自動提供豐富的信息，以引導模型學習圖像中各個物體的屬性及其聯系。通過這兩種設計的協同作用，Monkey練就了一雙火眼金睛，在多個基準測試中取得了出色的結果。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

高分辨率

高分辨率

+關注

關注
0

文章
46

瀏覽量
15334
圖像

圖像

+關注

關注
2

文章
1089

瀏覽量
40531
大模型

大模型

+關注

關注
2

文章
2533

瀏覽量
3004

原文標題：低成本擴大輸入分辨率！華科大提出Monkey：新的多模態大模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

請問SAR ADC有效分辨率與采樣率有關嗎？

是不是所有的ADC都是采樣率越高、分辨率越差（跳動位數越多）？我的實驗： ADS8556是16位SAR ADC，最高采樣率500多KhZ。使用20k采樣

發表于 01-15 07:57

TVP7002 VGA輸入分辨率支持1280 x 1536嗎?

TVP7002 VGA 輸入分辨率支持1280 x 1536嗎? TVP7002 VGA 輸入能自動偵察VGA信號所使用的分辨率嗎?如可以則讀哪些寄存器,有例子嗎?

發表于 01-14 07:27

如何提高透鏡成像的分辨率

透鏡成像分辨率是指透鏡系統能夠分辨的最小細節的能力。提高透鏡成像分辨率對于許多應用領域，如顯微鏡、望遠鏡、相機等，都是至關重要的。以下是一些提高透鏡成像分辨率的方法： 1. 減少像差

發表于 12-25 16:54 ?416次閱讀

如何選擇掃描電鏡的分辨率？

選擇掃描電鏡的分辨率需要綜合考慮多個因素。首先是研究目的。如果只是需要對樣品的大致形貌進行觀察，例如查看較大顆粒的分布或者材料表面的宏觀缺陷，較低分辨率（如3-10nm）可能就足夠了。但如果要觀察

發表于 12-25 14:29 ?234次閱讀

商湯日日新多模態大模型權威評測第一

剛剛，商湯科技日日新SenseNova多模態大模型，在權威綜合評測權威平臺OpenCompass的多模態評測中取得榜單第一。

發表于 12-20 10:39 ?304次閱讀

HDMI接口支持哪些視頻分辨率

HDMI（High-Definition Multimedia Interface）接口支持的視頻分辨率因版本不同而有所差異。以下是HDMI接口不同版本所支持的視頻分辨率的概述： HDMI 1.4

發表于 11-27 14:14 ?3123次閱讀

視頻處理器的分辨率是如何管理的

? ? 隨著電子應用技術和消費市場的不斷發展，LED顯示屏的顯示單元之間的間距正在逐漸縮小，然而，顯示屏的整體面積卻在不斷擴大。為了滿足這一趨勢下對超大輸出分辨率的需求，視頻處理器和拼接器變得

發表于 11-11 15:25 ?321次閱讀

提高SAR ADC的分辨率

電子發燒友網站提供《提高SAR ADC的分辨率.pdf》資料免費下載

發表于 10-25 09:11 ?0次下載

利用OpenVINO部署Qwen2多模態模型

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說，多

發表于 10-18 09:39 ?515次閱讀

什么是高分辨率示波器？它有哪些優勢？

高分辨率示波器是一種在信息與系統科學相關工程與技術領域中廣泛應用的科學儀器，其設計旨在提供更高的信號分辨率和更精細的信號分析能力。以下是對高分辨率示波器的詳細解析，包括其定義、優勢以及可能涉及的多個方面。

發表于 08-08 11:49 ?1083次閱讀

VR顯示器分辨率的選擇

一、VR顯示器分辨率的重要性 1.1 分辨率與視覺體驗 分辨率是指顯示器上能夠顯示的像素點的數量，通常用水平像素數×垂直像素數來表示。在VR顯示器中，分辨率直接影響到用戶的視覺體驗。高

發表于 07-08 10:29 ?1194次閱讀

伺服編碼器分辨率是什么意思

伺服編碼器分辨率是指編碼器能夠檢測到的最小角度或位置變化。在伺服系統中，編碼器用于測量電機軸或負載的位置和速度，以實現精確控制。分辨率越高，編碼器能夠檢測到的最小變化越小，從而實現更精確的控制

發表于 06-17 11:16 ?1044次閱讀

基于CNN的圖像超分辨率示例

考慮單個低分辨率圖像，首先使用雙三次插值將其放大到所需的大小，這是執行的唯一預處理。將插值圖像表示為Y。我們的目標是從Y中恢復與真實高分辨率圖像X盡可能相似的圖像F (Y) 。

發表于 03-11 11:40 ?739次閱讀

華為pockets屏幕分辨率是多少

華為Pocket S的內屏分辨率是2790×1188，外屏分辨率為340×340。該手機采用了6.9英寸的柔性OLED屏幕，支持120Hz刷新率、1440Hz高頻PWM調光，色彩表現達到10.7億色，同時還配備了防反光納米光學膜

發表于 03-06 17:37 ?1233次閱讀

編碼器分辨率是什么意思編碼器分辨率和脈沖數的關系

按照編碼器支持的分辨率可以把編碼器分成標清編碼器、高清編碼器、全高清編碼器，分辨率越高幀率越高視頻就越清楚。 1.編碼器的分辨率是什么意思編碼器的分辨率是指編碼器以每旋轉360度提供

發表于 02-21 18:07 ?4480次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

低成本擴大輸入分辨率！華科大提出Monkey：新的多模態大模型

評論

請問SAR ADC有效分辨率與采樣率有關嗎？

TVP7002 VGA輸入分辨率支持1280 x 1536嗎?

如何提高透鏡成像的分辨率

如何選擇掃描電鏡的分辨率？

商湯日日新多模態大模型權威評測第一

HDMI接口支持哪些視頻分辨率

視頻處理器的分辨率是如何管理的

提高SAR ADC的分辨率

利用OpenVINO部署Qwen2多模態模型

什么是高分辨率示波器？它有哪些優勢？

VR顯示器分辨率的選擇

伺服編碼器分辨率是什么意思

基于CNN的圖像超分辨率示例

華為pockets屏幕分辨率是多少

編碼器分辨率是什么意思編碼器分辨率和脈沖數的關系