低成本擴大輸入分辨率:探秘98億參數多模態大模型--Monkey眼中的世界
【導讀】11月,華中科技大學團隊發布了新的多模態大模型——Monkey,通過專注于大分辨率,使得Monkey能夠處理分辨率高達1344×896的圖像,并加入了有著詳細描述的高質量圖文數據進行訓練,幫助Monkey煉就洞察圖像細節的火眼金睛,取得了與Caption和QA任務相關的16個數據集的SOTA,甚至與GPT4V相比,在密集文本問答任務上也有著亮眼的表現。
論文鏈接:https://arxiv.org/abs/2311.06607
代碼地址:https://github.com/Yuliang-Liu/Monkey
官方demo效果展示:
Monkey在密集文本的問答任務上取得了很不錯的效果,可以根據問題的要求進行推理,能夠適配中文問答
在文本較少的場景中Monkey也展現了不俗的問答能力,自身擁有豐富的知識庫,可以根據問題進行外推,從而回答出正確的答案
Monkey在Caption任務上同樣取得了出色的結果,不僅僅是對圖片進行準確詳細的描述,同時能夠合理發散,分析出圖片所傳達的一些抽象含義
以下是Monkey同GPT4V在密集文本與圖表上進行問答的可視化結果展示。
下圖展示了Monkey的卓越性能,在 18 個不同的數據集上進行測試的結果表明,Monkey能夠很好地勝任圖像描述生成、場景問答、以場景文本為中心的視覺問答和面向文檔的視覺問答等任務,并在16個數據集上取得SOTA。
方法介紹:
1. 增大輸入分辨率
將原始輸入圖片裁剪成多個圖片塊,再將這些圖片塊和原始輸入圖片統一到448*448的尺寸。每個圖片塊經過視覺編碼時會加入一個專屬的Lora以此更好地提取圖片塊的局部視覺特征,訓練時僅訓練Lora部分,而原始的輸入圖像則用于提取全局特征,以此方法達到增大輸入分辨率的目的。
2. 多級特征融合的詳細描述生成方法生成高質量圖文數據
主要分為五個步驟:第一步,使用BLIP2對整張圖生成全局描述;第二步用 GRIT生成區域框,并提供區域中對象的名稱和詳細描述,同時使用PPOCR提取區域的文本框坐標和文本內容;第三步使用SAM進行分割,并送入BLIP2生成對各個物體及其組成部分的詳細描述;第四步使用BLIP-2 評估過濾掉低分匹配;最后使用ChatGPT 對上述得到的描述進行總結從而得到圖像的詳細描述。
下圖為使用使用多級特征融合的詳細描述生成方法后得到的標注與原始CC3M標注的對比,不難看出,兩種標注之間存在著較大的差距,生成的詳細標注盡可能地包含了圖片中的各種細節,而不像是CC3M地原始標注那樣一句帶過。利用這樣高質量的圖文數據進行訓練,使得Monkey能夠更好地把握圖文之間的關系。
更多的可視化對比結果與展示:
通過下圖展示的Monkey在QA任務上與多種大模型的對比結果,從中我們能夠更加直觀地感受到Monkey強大的問答能力,能夠準確地把握住問題并給出正確的回答,尤其是在密集文本問答任務上,目前的大模型或多或少都面臨著一定的問題,Monkey為解決這一難題提供了一條可行的出路。
總結
Monkey提出了一種訓練高效的方法,無需預訓練即可有效地提高模型的輸入分辨率,最高可達896 x 1344像素。為了彌補簡單文本標簽和高分辨率輸入之間的差距,Monkey提出了一種多級特征融合的詳細描述生成方法,它可以自動提供豐富的信息,以引導模型學習圖像中各個物體的屬性及其聯系。通過這兩種設計的協同作用,Monkey練就了一雙火眼金睛,在多個基準測試中取得了出色的結果。
-
高分辨率
+關注
關注
0文章
46瀏覽量
15334 -
圖像
+關注
關注
2文章
1089瀏覽量
40531 -
大模型
+關注
關注
2文章
2533瀏覽量
3004
原文標題:低成本擴大輸入分辨率!華科大提出Monkey:新的多模態大模型
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論