色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用多模態信息做prompt

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:子龍 ? 2021-11-03 09:39 ? 次閱讀

自多模態大火以來,井噴式地出現了許多工作,通過改造預訓練語言模型,用圖像信息來增強語義信息,但主要集中在幾個 NLU 任務上,在 NLG 上的研究比較少。

今天要介紹的這篇 paper Multimodal Conditionality for Natural Language Generation 研究的任務場景則是以多模態信息作為條件做 conditional 的 NLG任務。這種任務設置有許多實際的應用場景。比如,生成商品介紹文案時,僅僅基于該商品的文字標題是不夠的。如果能結合商品的圖片,必然能夠得到更貼切的文案。

這篇工作的模型基于 GPT2,而多模態信息則是以一種類似 prompt 的方式來使用。雖然方法比較簡單直觀,但具備一定通用性,未來或許有進一步挖掘的可能。

論文題目:

Multimodal Conditionality for Natural Language Generation

論文鏈接:

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其實十分簡單,一切語言模型都是為了衡量一段文字序列的概率,即:

而如果引入了多模態的輸入,就相當于在生成時多了一個條件,即條件概率為:

其中為多模態輸入序列。

以文中生成商品文案的運用場景為例。

這里的Product Title和Product Images就是作為生成Product Description時的“條件”。

那么如何將多模態序列引入到自然語言生成模型呢?

本文使用了一個十分直觀的方法,稱作MANTIS,將作為條件的多模態序列作為前綴放置到decoder輸入序列的前面,進而中解碼過程中分享多模態信息。其中圖片輸入借助ResNet-152,將最后一層輸出用線性層映射到語言模型同一個空間中。而作為條件的文本輸入,即這里的product title,和生成序列一同進行編碼。

效果數據集采用FACAD,提供了商品的標題和圖片,目標是生成產品描述,效果如下:

dd0036ac-3837-11ec-82a8-dac502259ad0.png

dd22ef4e-3837-11ec-82a8-dac502259ad0.png

文中提出的模型在所有指標中都取得了最優結果,相比于baseline,將BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同時,由于衡量生成文本質量具有主觀性,作者也進行了人工評分,結果表明MANTIS依然取得了最優結果。

從生成效果來看,生成的描述成功地結合了圖片信息,使得描述更加準確,而非籠統的介紹。

總結這篇文章方法十分直觀,但是結合最近火熱的 Prompt,似乎又有了更多的啟發。同樣是生成,同樣是加前綴,似乎給定條件的生成就是加上編碼好的前綴?那么多模態未來能不能成為一種新的prompt呢?作者認為他們的模型可以借助各種不同的多模態條件生成,然而不得不說本文的方法對模態融合的部分做的馬虎了些。本文只是單純借助解碼器進行融合,并沒有在編碼階段就分享跨模態的信息。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 信息
    +關注

    關注

    0

    文章

    407

    瀏覽量

    35575
  • 模型
    +關注

    關注

    1

    文章

    3298

    瀏覽量

    49079

原文標題:用多模態信息做 prompt,解鎖 GPT 新玩法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    2025年Next Token Prediction范式會統一模態

    訓練方法與推理策略 性能評測體系 現存挑戰與未來方向 綜述的完整目錄如下: 模態的 Tokenization 我們認為模態的 Tokenization 是 MMNTP 的基石和最重
    的頭像 發表于 01-21 10:11 ?48次閱讀
    2025年Next Token Prediction范式會統一<b class='flag-5'>多</b><b class='flag-5'>模態</b>嗎

    體驗MiniCPM-V 2.6 模態能力

    模態組網
    jf_23871869
    發布于 :2025年01月20日 13:40:48

    商湯日日新模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態大模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?313次閱讀

    一文理解模態大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態大語言模型 - 上》介紹了什么是模態大語言模型,以及構建
    的頭像 發表于 12-03 15:18 ?190次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型——下

    超聲界“內卷終結者”!ZRT智銳通提供全新引擎打造模態影像融合系統

    模態影像融合超聲系統的市場規模也在不斷擴大,國內眾多超聲系統廠家也在不斷尋找合適的硬件平臺,用以承載旗下的模態影像融合超聲系統。
    的頭像 發表于 11-11 10:52 ?696次閱讀
    超聲界“內卷終結者”!ZRT智銳通提供全新引擎打造<b class='flag-5'>多</b><b class='flag-5'>模態</b>影像融合系統

    AI對話魔法 Prompt Engineering 探索指南

    作者:京東物流 李雪婷 一、什么是 Prompt Engineering? 想象一下,你在和一個智能助手聊天,你需要說出非常清晰和具體的要求,才能得到你想要的答案。Prompt
    的頭像 發表于 11-07 10:11 ?875次閱讀
    AI對話魔法 <b class='flag-5'>Prompt</b> Engineering 探索指南

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?518次閱讀

    云知聲山海模態大模型UniGPT-mMed登頂MMMU測評榜首

    近日,模態人工智能模型基準評測集MMMU更新榜單,云知聲山海模態大模型UniGPT-mMed以通用能力、醫療專業能力雙雙排名第一的優異成績登頂榜首,力壓GPT-4V,充分彰顯其硬核
    的頭像 發表于 10-12 14:09 ?327次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型UniGPT-mMed登頂MMMU測評榜首

    Meta發布模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術突破,成功推出了模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息,還實現了對圖像內容的精準理解,標志著Meta在AI
    的頭像 發表于 09-27 11:44 ?434次閱讀

    云知聲推出山海模態大模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態大模型,正式宣告“Her時代
    的頭像 發表于 08-27 15:20 ?419次閱讀

    Build 2024發布多項Azure AI Speech全新模態功能

    客戶們持續使用 Azure OpenAI 和 Azure AI Speech 進行創新,為企業引入新的效率,并構建新的模態體驗。
    的頭像 發表于 05-28 09:08 ?614次閱讀
    Build 2024發布多項Azure AI Speech全新<b class='flag-5'>多</b><b class='flag-5'>模態</b>功能

    李未可科技正式推出WAKE-AI模態AI大模型

    李未可科技模態 AI 大模型正式發布,積極推進 AI 在終端的場景應用 ? 4月18日,2024中國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI模態
    發表于 04-18 17:01 ?643次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大模型

    AI機器人迎來模態模型

    配備 GR00T 模型的機器人由于需要“吸收消化”外界的模態信息,還要快速完成理解、決策、行動等一系列動作,因此對于算力的需求是巨量的。
    發表于 04-12 10:39 ?298次閱讀

    谷歌推出模態VLOGGER AI

    谷歌最新推出的VLOGGER AI技術引起了廣泛關注,這項創新的模態模型能夠讓靜態肖像圖“活”起來并“說話”。用戶只需提供一張人物肖像照片和一段音頻內容,VLOGGER AI就能讓圖片中的人物仿佛真的在朗讀這段音頻,面部表情豐富,栩栩如生。
    的頭像 發表于 03-22 10:45 ?885次閱讀

    螞蟻集團推出20億參數模態遙感基礎模型SkySense

    近日,螞蟻集團聯合武漢大學宣布成功研發出20億參數模態遙感基礎模型SkySense。這一創新模型由螞蟻集團的AI創新研發部門NextEvo與武漢大學共同完成,是迄今為止國際上參數規模最大、覆蓋任務最全、識別精度最高的
    的頭像 發表于 03-04 11:22 ?872次閱讀
    主站蜘蛛池模板: 国产A级毛片久久久久久久 国产a级黄色毛片 | 丰满五十六十老熟女HD60 | 国产精品第九页 | 少妇伦子伦情品无吗 | 扒开屁股眼往里面夹东西 | 午夜伦伦电影理论片大片 | 快乐激情站 | 日本久久久免费高清 | 成人伊人青草久久综合网 | 久久黄视频 | 快播理论片 | 99久久精品国内 | 双手绑在床头调教乳尖 | 黄色三级三级三级免费看 | 玄幻全黄h全肉后宫 | 天天久久狠狠色综合 | 久久视频精品3线视频在线观看 | 女人把腿张开叫男人桶免费视频 | 国产亚洲tv在线观看 | WWWXXXX兽交| 精品极品三大极久久久久 | 亚州中文字幕 | 伊人角狠狠狠狠 | 日韩欧美一区二区三区在线 | 无遮18禁在线永久免费观看挡 | 神马影院在线eecss伦理片 | 男人大臿蕉香蕉大视频 | 亚洲免费网站在线观看 | 欧美日韩亚洲一区二区三区在线观看 | 沟沟人体一区二区 | 尹人综合网 | 国产成人高清在线观看播放 | 国产精品毛片AV久久97 | 中文字幕乱码一区久久麻豆樱花 | 我的美女房东未删减版免费观看 | 四虎国产一区 | 色婷婷五月综合中文字幕 | 手机在线亚洲日韩国产 | 久久热这里面只有精品 | 777久久人妻少妇嫩草AV | 国产精品人妻无码免费A片导航 |