色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從Google多模態大模型看后續大模型應該具備哪些能力

深度學習自然語言處理 ? 來源:NLP PaperWeekly ? 2023-12-28 11:19 ? 次閱讀

前段時間Google推出Gemini多模態大模型,展示了不凡的對話能力和多模態能力,其表現究竟如何呢?

本文對Gemini報告進行分析,總的來說Gemini模型在圖像、音頻、視頻和文本理解方面表現出卓越的能力。其包括 Ultra、Pro 和 Nano 尺寸,能夠適用于從復雜推理任務到設備內存受限用例的各種應用。

不像OpenAI接入多模態能力需要利用多個不同的模型,Google直接在預訓練階段直接接受多模態的輸入是Gemini的特點之一,它能夠直接處理多模態的數據,并且各項指標都還不錯。另外可以看出具備圖文理解等能力后,再結合大模型的對話能力,能夠帶來更驚艷的效果體驗。

一、概述

1Motivation

發布Google的能與GPT4競爭的大模型,同時兼具多模態能力,包括文字、圖像、視頻、音頻識別與理解能力。

2Methods

1 Gemini模型支持4種格式輸入,2種格式輸出

2f30a1b2-a3d6-11ee-8b88-92fbcf53809c.png

特點:同時支持text文本,image圖像,video視頻和audio音頻輸入,支持文本和圖片的輸出??梢灾苯犹幚硪纛l文件,不需要將音頻轉為文字等。

猜測的訓練方法:

多模態訓練方法:Gemini是幾種模態一起聯合從頭訓練的,包括文本、圖片、音頻、視頻等。這與目前通常的多模態做法不太一樣,目前的多模態模型一般是使用現成的語言大模型或者經過預訓練過的圖片模型(比如CLIP的圖片編碼部分),然后利用多模態訓練數據在此基礎上加上新的網絡層訓練;如果是幾個模態從頭開始一起訓練,那么按理說應該都遵循next token prediction的模式,就應該是LVM的那個路子,其它模態的數據打成token,然后圖片、視頻等平面數據先轉換成比如16*16=256個token,然后搞成一維線性輸入,讓模型預測next token,這樣就把不同模態在訓練階段統一起來。

解碼結構:Decoder only的模型結構,針對結構和優化目標做了優化,優化目的是大規模訓練的時候的訓練和推理的穩定性,所以大結構應該是類似GPT的Decoder-only預測next token prediction的模式。目前支持32K上下文。

命令理解方面:和GPT一樣,采用多模態instruct數據進行SFT+RM+RLHF三階段,這里的RM部分在訓練打分模型的時候,采用了加權的多目標優化,三個目標helpfulness factuality和 safety,猜測應該是對于某個prompt,模型生成的結果,按照三個指標各自給了一個排序結果。

模型大?。?/strong>從硬件描述部分來看,意思是動用了前所未有的TPU集群,所以推測Gemini Ultra的模型規模應該相當大,猜測如果是MOE大概要對標到GPT 4到1.8T的模型容量,如果是Dense模型估計要大于200B參數??紤]到引入視頻音頻(當然是來自于Youtube了,難道會來自TikTok么)多模態數據,所以總數據量*模型參數,會是非常巨大的算力要求,技術報告說可以一周或者兩周做一次訓練。

訓練細節:可能分成多個階段,最后階段提高了領域數據的混合配比,猜測應該指的是邏輯和數學類的訓練數據增加了配比,目前貌似很多這么做的,對于提升模型邏輯能力有直接幫助。

代碼能力:AlphaCode2是在Gemini pro基礎上,使用編程競賽的數據fine-tune出來的,效果提升很明顯,在編程競賽上排名超過85%的人類選手,之前的AlphaCode1超過50%的人類選手;

2 Gemini模型有多個版本,最小有1.8B

2f4ab408-a3d6-11ee-8b88-92fbcf53809c.png

特點:其中Nano首先從大模型蒸餾,然后4bit量化。Gemini Nano包含兩個版本:1.8B面向低端手機,3.25B面向高端手機。

3 Conclusion

1 文本理解:Ultra性能超過了GPT4

2f6478f2-a3d6-11ee-8b88-92fbcf53809c.png

Ultra比gpt4效果好,pro比gpt3.5效果好,MMNLU第一次超過人類專家水平。

Gemini Ultra 在六個不同數據集上都是最佳。Gemini Pro是Gemini系列中的第二大模型,效率更高的同時也頗具競爭力。

2 圖像理解:zero-shot效果超過很多微調后的模型

2f796316-a3d6-11ee-8b88-92fbcf53809c.png

3 視頻理解:超過之前的few-shot SoTA模型

2f8f90dc-a3d6-11ee-8b88-92fbcf53809c.png

也是取得了SoTA,特別是英語視頻字幕數據集(VATEXT、YouCook2)上提升比較大,其他感覺提升沒那么大。相關評估指標如下:視頻字幕 -> CIDER,NextQA -> WUPS,Perception Test -> top-1 accuracy,ActivityNet-QA -> ActivityNet-QA。

4 不同版Genmini模型的性能

2fb6b9be-a3d6-11ee-8b88-92fbcf53809c.png

“事實性” :涵蓋開放/閉卷檢索和問題回答任務;

“長文本” :涵蓋長篇摘要、檢索和問題回答任務;

“數學/科學” :包括數學問題解決、定理證明和科學考試等任務;

“推理” :需要算術、科學和常識推理的任務;

“多語言” :用于多語言翻譯、摘要和推理的任務。

2fce511e-a3d6-11ee-8b88-92fbcf53809c.png

Nano2模型很多超過了Pro版本的50%,部分達到90的水平,效果還不錯。

5 多語種翻譯:性能超過GPT4

2fe2ccfc-a3d6-11ee-8b88-92fbcf53809c.png

翻譯能力也是比GPT-4好,WMT23指標中4個有3個超過GPT4的表現。

6 圖像理解數據集:MMMU數據集表現

2ff0d644-a3d6-11ee-8b88-92fbcf53809c.png

MMMU(Yue et al., 2023):是最近發布的評估基準,由6個學科的圖像問題組成,每個學科內有多個主題,需要大學水平的知識來解決這些問題。

Gemini Ultra將最先進的結果提高了 5 個百分點以上,6個學科中有5個學科中超越了之前的最佳成績,展示了其多模態推理能力。

二、詳細內容

1 多模態推理能力:識別手寫答案,對物理問題進行解答

30009a34-a3d6-11ee-8b88-92fbcf53809c.png

特點:識別書寫結果,這個和OpenAI之前演示的根據草圖寫前端代碼是一樣的,不過識別的準確率是存疑的。

2 多模態推理能力:重新組織子圖順序

301ad34a-a3d6-11ee-8b88-92fbcf53809c.png

Gemini的多模態推理能力可生成用于重新排列子圖的matplotlib代碼。

Prompt:識別當前子圖的結果,重新組織子圖的順序并解釋。

解決此任務需要模型具備以下能力:

(1) 識別圖中描繪的函數;

(2) 逆向圖形來推斷生成子圖的代碼;

(3) 按照指令將子圖放置在所需的位置;

(4) 抽象推理,推斷指數圖必須留在原來的位置,因為正弦圖必須為 3 維圖移動。

3 圖像生成能力:多模態理解+圖像生成

3039b904-a3d6-11ee-8b88-92fbcf53809c.png

要具備上面的功能需要以下能力:

(1)識別圖像中的顏色。這個難度不大。

(2)生成文字+圖片結果。這個難度好像也沒有那么大,可能有two-stage的實現方法或者end-to-end的實現方法。不太確定google用的哪種方法。

4 語音理解能力:具備語音識別和語音翻譯能力

3054eea4-a3d6-11ee-8b88-92fbcf53809c.png

對比的是OpenAI的Whisper,看著Gemini就是把多個SoTA模型包裝起來了。

5 多模態理解:支持圖片+音頻輸入

3068d78e-a3d6-11ee-8b88-92fbcf53809c.png

這個gptv+加個語音轉文字的模型可以做,這里的特點可能是直接用一個模型就可以解決?

三、多模態能力展示

1 幾何推理能力:求平行四邊形的高

30928bc4-a3d6-11ee-8b88-92fbcf53809c.png

2 視覺多模態推理能力:根據圖片確定地點

30a979c4-a3d6-11ee-8b88-92fbcf53809c.png

3 多語言常識推理:識別中文關系圖

30b7ebb2-a3d6-11ee-8b88-92fbcf53809c.png

4 視頻理解能力:分析視頻中的人如何提升足球技術

30cc1cea-a3d6-11ee-8b88-92fbcf53809c.png

四、總結

直接支持多模態的能力是Gemini的特點,Google從預訓練階段就統一了多模態大模型的訓練,該策略也可能是后續大模型的發展趨勢,但是其具體實現方法、帶來的增益、以及cost還未知。OpenAI多模態的能力是引入(支持語音)其他模型或者通過插件(支持圖像)來實現。

2f30a1b2-a3d6-11ee-8b88-92fbcf53809c.png

Gemini的多模態能力比GPT4-V要強,科學推理能力可能稍微弱于GPT4。

2ff0d644-a3d6-11ee-8b88-92fbcf53809c.png

圖文理解+視頻理解等多模態能力與最新的大模型強強組合確實能帶來驚艷的效果,但是其穩定性,是否真實能落地還有待進一步觀察。例如結合圖像信息求平行四邊行的高,在教育領域相對于純文本可能會更有價值,但是OCR等技術還面臨魯棒性偏差的問題,Google的模型段時間應該還是沒辦法解決這些問題。

30928bc4-a3d6-11ee-8b88-92fbcf53809c.png









審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SFT
    SFT
    +關注

    關注

    0

    文章

    9

    瀏覽量

    6860
  • TPU
    TPU
    +關注

    關注

    0

    文章

    151

    瀏覽量

    21007
  • GPT
    GPT
    +關注

    關注

    0

    文章

    368

    瀏覽量

    15861
  • OpenAI
    +關注

    關注

    9

    文章

    1196

    瀏覽量

    8227

原文標題:Gemini技術報告解讀:從Google多模態大模型看后續大模型應該具備哪些能力

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態模型

    熟悉愛芯通元NPU的網友很清楚,去年開始我們在端側模態模型適配上一直處于主動緊跟的節奏。先后適配了國內最早開源的
    的頭像 發表于 04-21 10:56 ?822次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    簡單的模型進行流固耦合的模態分析

      本次分享,對一個簡單的模型進行流固耦合的模態分析,有限元科技小編主要給大家演示如何使用Hypermesh與Nastran對流固耦合的結構進行模態分析,以及了解聲腔對結構模態的影響。
    發表于 07-07 17:15

    VisCPM:邁向多語言模態模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態能力的突飛猛進,模態
    的頭像 發表于 07-10 10:05 ?857次閱讀
    VisCPM:邁向多語言<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>時代

    更強更通用:智源「悟道3.0」Emu模態模型開源,在模態序列中「補全一切」

    熱度。Flamingo 具備強大的模態上下文少樣本學習能力。 Flamingo 走的技術路線是將大語言模型與一個預訓練視覺編碼器結合,并插
    的頭像 發表于 07-16 20:45 ?871次閱讀
    更強更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>開源,在<b class='flag-5'>多</b><b class='flag-5'>模態</b>序列中「補全一切」

    北大&amp;華為提出:模態基礎大模型的高效微調

    深度學習的大模型時代已經來臨,越來越多的大規模預訓練模型在文本、視覺和模態領域展示出杰出的生成和推理能力。然而大
    的頭像 發表于 11-08 16:20 ?1442次閱讀
    北大&amp;華為提出:<b class='flag-5'>多</b><b class='flag-5'>模態</b>基礎大<b class='flag-5'>模型</b>的高效微調

    探究編輯模態大語言模型的可行性

    不同于單模態模型編輯,模態模型編輯需要考慮更多的模態信息。文章出發點依然
    發表于 11-09 14:53 ?677次閱讀
    探究編輯<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>的可行性

    模型+模態的3種實現方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(包括圖像、語音、視頻模態)的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態的信息,讓其變得更強大、更通用呢?本節將介紹“大
    的頭像 發表于 12-13 13:55 ?2323次閱讀
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模態</b>的3種實現方法

    機器人基于開源的模態語言視覺大模型

    ByteDance Research 基于開源的模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型,只用單機就可以訓練。
    發表于 01-19 11:43 ?548次閱讀
    機器人基于開源的<b class='flag-5'>多</b><b class='flag-5'>模態</b>語言視覺大<b class='flag-5'>模型</b>

    李未可科技正式推出WAKE-AI模態AI大模型

    李未可科技模態 AI 大模型正式發布,積極推進 AI 在終端的場景應用 ? 4月18日,2024中國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI
    發表于 04-18 17:01 ?768次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>

    商湯科技發布5.0模態模型,綜合能力全面對標GPT-4 Turbo

    商湯科技發布5.0模態模型,綜合能力全面對標GPT-4 Turbo 4月23日,商湯科技董事長兼CEO徐立在2024商湯技術交流日上發布了行業首個云、端、邊全棧大
    的頭像 發表于 04-24 16:49 ?1342次閱讀

    智譜AI發布全新模態開源模型GLM-4-9B

    近日,智譜AI在人工智能領域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態能力,再次刷新了業界對于大型語言
    的頭像 發表于 06-07 09:17 ?1022次閱讀

    云知聲山海模態模型UniGPT-mMed登頂MMMU測評榜首

    近日,模態人工智能模型基準評測集MMMU更新榜單,云知聲山海模態模型UniGPT-mMed
    的頭像 發表于 10-12 14:09 ?546次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>UniGPT-mMed登頂MMMU測評榜首

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?905次閱讀

    商湯日日新模態模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?678次閱讀

    海康威視發布模態模型文搜存儲系列產品

    模態模型為安防行業帶來重大技術革新,基于觀瀾大模型技術體系,海康威視將大參數量、大樣本量的圖文模態
    的頭像 發表于 02-18 10:33 ?414次閱讀
    主站蜘蛛池模板: yellow日本动漫高清 | 免费小视频在线观看 | 99热最新网站 | 中文成人在线视频 | 久久午夜夜伦痒痒想咳嗽P 久久午夜夜伦鲁鲁片无码免费 | 国产精品嫩草影院在线观看免费 | 中文字幕一区在线观看视频 | 无限资源日本2019版 | 免费播放美女一级毛片 | 在线国产a不卡 | 亚洲中文字幕欧美自拍一区 | 99精品免费久久久久久久久蜜桃 | 男生jj插入女生jj | 国产麻豆精品久久一二三 | 欧美乱码伦视频免费66网 | 一二三四在线播放免费观看中文版视频 | 高h 纯肉文 | 免费播放美女一级毛片 | 亚洲国产欧美在线看片 | 浪潮色诱AV久久久久久久 | 十分钟免费视频大全在线观看 | 无码专区久久综合久综合字幕 | 超嫩校花被灌醉在线观看 | 8x8x我要打机飞在线观看 | a色毛片免费视频 | 亚洲视频在线观看 | 伊人精品在线 | 国语精彩对白2021 | 思思久99久女女精品 | 4399的视频BD高清在线观看免费 | 99久久99久久精品免费看子 | 涩涩在线观看免费视频 | 污到湿的爽文免费阅读 | 欧美性色xo影院69 | 国产在线成人一区二区三区 | 欧美区 bt | 人妻中文字幕乱人伦在线 | 久久这里只有精品视频e | 韩国无遮羞禁动漫在线观看96 | ccc36色小姐电影 | 国产h视频在线观看免费 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品